論文の概要: Beyond Euclidean Proximity: Repairing Latent World Models with Horizon-Matched Trajectory Reachability Metrics
- arxiv url: http://arxiv.org/abs/2605.22164v1
- Date: Thu, 21 May 2026 08:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.165483
- Title: Beyond Euclidean Proximity: Repairing Latent World Models with Horizon-Matched Trajectory Reachability Metrics
- Title(参考訳): ユークリッド確率の超越:水平整形軌道到達距離による潜在世界モデルの修復
- Authors: Liangyu Li, Shengzhi Wang, Qingwen Liu,
- Abstract要約: 一般的な潜時MPCでは、候補列は予測終端状態と目標潜時状態の間のユークリッド距離によってランク付けされる。
固定潜在世界モデルのためのポストホック終端階法であるトラジェクトリ・リーチビリティ・メトリクス(TRM)を提案する。
- 参考スコア(独自算出の注目度): 5.384648499307027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent world models can contain the state needed for control, yet their terminal-cost interface can expose the planner to the wrong decision-relevant information. In common latent MPC, candidate sequences are ranked by Euclidean distance between predicted terminal and goal latent states; this assumes that raw latent distance weights reachability-relevant variables correctly. We propose trajectory reachability metrics (TRM), a post-hoc terminal-ranking method for fixed latent world models. TRM trains a small pairwise head from logged trajectory structure and uses it as a replacement or hybrid cost; the encoder, dynamics, sampler, optimizer, and evaluation manifests remain fixed. The key design choice is horizon-aware supervision: the metric is trained on broad, balanced temporal separations to match the long-horizon terminal candidate ranking problem. On a hard TwoRoom benchmark, raw latent planning with LeWorldModel (LeWM) reaches 7.0% success, while full-horizon TRM reaches 97.0%; shuffled temporal-label controls stay at 0.0%. The same recipe improves a PLDM baseline from 32.7% to 84.0% across three seeds, and a short-horizon TRM variant reaches only 35.0% with the 100,000 pair budget. In TwoRoom, we provide mechanistic evidence for why TRM works: XY position is linearly decodable (R^2=0.998), yet raw latent MSE misranks candidates; the XY-probe rowspace accounts for less than 1% of terminal-goal latent MSE but carries most candidate-quality signal; and SCSA audits show that TRM improves the ordering and selected endpoint seen by the planner. On PushT go50/go75, TRM-style task-state metrics improve SCSA ranking and selected final distance more cleanly than closed-loop success, motivating auxiliary hybrid costs in continuous manipulation. TRM is the planner-facing repair, and audits explain when terminal reachability metrics should replace or augment raw latent proximity.
- Abstract(参考訳): 潜在世界モデルは制御に必要な状態を含むことができるが、端末コストのインターフェースはプランナーを間違った決定関連情報に公開することができる。
一般的な潜伏MPCでは、候補列は予測終端と目標潜伏状態の間のユークリッド距離でランク付けされる。
固定潜在世界モデルのためのポストホック終端階法であるトラジェクトリ・リーチビリティ・メトリクス(TRM)を提案する。
TRMは、ログ化された軌道構造から小さな対の頭部を訓練し、それを代替またはハイブリッドコストとして使用し、エンコーダ、ダイナミクス、サンプリング器、オプティマイザ、評価マニフェストは固定されている。
測度は、長い水平端末候補ランキング問題に適合するように、広範かつバランスの取れた時間的分離に基づいて訓練される。
ハードな TwoRoom ベンチマークでは、LeWorldModel (LeWM) による生の潜伏計画が7.0%、フルホライゾン TRM は97.0%、シャッフル時間ラベルコントロールは0.0%である。
同じレシピはPLDMベースラインを3つの種で32.7%から84.0%に改善し、短水平のTRM変種は10万対の予算でわずか35.0%に達する。
TwoRoomでは、TRMが機能する理由として、XY位置が線形デオード可能(R^2=0.998)であるが、生の潜伏MSEが候補を誤っていること、XY-probe行空間が端末ゴール潜伏MSEの1%未満を占めるが、ほとんどの候補品質信号を持っていること、そして、SCSA監査では、TRMがプランナーが見た順序と選択されたエンドポイントを改善することを示す。
PushT go50/go75では、TRMスタイルのタスクステートメトリクスがSCSAランキングを改善し、クローズドループの成功よりもクリーンに最終距離を選択し、継続的な操作において補助的なハイブリッドコストを動機付けている。
TRMは、プランナーが直面する修理であり、監査は、いつ端末の到達可能性の指標が、生の潜伏した近接を置き換えるか、または拡張すべきかを説明する。
関連論文リスト
- SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction [0.0]
本稿では,デコーダのみの変換器SAGAを提案する。
1990年から2022年にかけて,2,143,817人,61,284,903人からなる長手スウェーデン LISA レジスターをトレーニングした。
SAGAは10年の地平線で31.9%、20年の地平線で37.7%の絶対誤差を減少させる。
論文 参考訳(メタデータ) (2026-05-18T18:35:20Z) - LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification [35.08680804423239]
CoT(Chain-of- Thought)推論は、難しいタスクにおいて大きな言語モデル(LLM)を改善するが、推論コストも高くつく。
本稿では,連続潜伏空間における有界探索を最初に行う2段階のパラダイムであるLaTERを提案する。
LaTERは入力の埋め込み空間に隠された最後の層を投影し、潜伏KVキャッシュを保持し、エントロピーとモデルネイティブのストップトーケンプローブを使用していつ切り替えるかを決定する。
論文 参考訳(メタデータ) (2026-05-08T06:23:58Z) - Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression [39.60395856651371]
TACOは、既存の端末エージェントのためのプラグアンドプレイ、トレーニング不要、自己進化型ターミナルエージェント圧縮フレームワークである。
相互作用軌跡から構造化圧縮規則を発見し、洗練し、再利用する。
エージェントの足場とバックボーンモデル間のタスクパフォーマンスとトークン効率を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-21T15:25:54Z) - TEMPO: Scaling Test-time Training for Large Reasoning Models [87.61789183311856]
テストタイムトレーニング(TTT)は、推論時間中にラベルのないテストインスタンスにモデルパラメータを適用する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
論文 参考訳(メタデータ) (2026-04-21T10:01:04Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。