論文の概要: Token Is All You Need: Cognitive Planning through Belief-Intent Co-Evolution
- arxiv url: http://arxiv.org/abs/2511.05540v2
- Date: Tue, 11 Nov 2025 18:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.034072
- Title: Token Is All You Need: Cognitive Planning through Belief-Intent Co-Evolution
- Title(参考訳): Tokenは必要なものすべて: 信頼と信頼の共進化による認知的計画
- Authors: Shiyao Sang,
- Abstract要約: 意味的に豊かなトークンの最小セット内での信念と意図の共進化から効果的な計画が生じることを示す。
知性はピクセルの忠実さではなく、信念と意図のトークン化された双対性にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We challenge the long-standing assumption that exhaustive scene modeling is required for high-performance end-to-end autonomous driving (E2EAD). Inspired by cognitive science, we propose that effective planning arises not from reconstructing the world, but from the co-evolution of belief and intent within a minimal set of semantically rich tokens. Experiments on the nuPlan benchmark (720 scenarios, 11k+ samples) reveal three principles: (1) sparse intent tokens alone achieve 0.487 m ADE, demonstrating strong performance without future prediction; (2) conditioning trajectory decoding on predicted future tokens reduces ADE to 0.382 m, a 21.6% improvement, showing that performance emerges from cognitive planning; and (3) explicit reconstruction loss degrades performance, confirming that task-driven belief-intent co-evolution suffices under reliable perception inputs. Crucially, we observe the emergence of cognitive consistency: through prolonged training, the model spontaneously develops stable token dynamics that balance current perception (belief) and future goals (intent). This process, accompanied by "temporal fuzziness," enables robustness under uncertainty and continuous self-optimization. Our work establishes a new paradigm: intelligence lies not in pixel fidelity, but in the tokenized duality of belief and intent. By reframing planning as understanding rather than reaction, TIWM bridges the gap between world models and VLA systems, paving the way for foresightful agents that plan through imagination. Note: Numerical comparisons with methods reporting results on nuScenes are indicative only, as nuPlan presents a more challenging planning-focused evaluation.
- Abstract(参考訳): 我々は、高性能エンドツーエンド自動運転(E2EAD)において、徹底的なシーンモデリングが必要とされるという長年の前提に挑戦する。
認知科学にインスパイアされた我々は、効果的な計画は世界を再構築することではなく、最小限の意味論的に豊かなトークンの集合の中で、信念と意図の共進化から生まれることを提案する。
nuPlanベンチマーク (720のシナリオ、11k以上のサンプル) の実験では、3つの原則が示されている: 1) 少ない意図トークンだけで0.487m ADEを達成し、将来の予測なしに強力なパフォーマンスを示し、(2) 予測される将来のトークンに対する条件付き軌道デコーディングはADEを0.382mに減少させ、21.6%の改善により、認知計画からパフォーマンスが出現することを示し、(3) 明示的な再構築損失はパフォーマンスを低下させ、タスク駆動の信念に基づく共進化が信頼性のあるインプットの下で十分であることを確認した。
重要なことに、認知的一貫性の出現を観察する: 長期間のトレーニングを通じて、モデルは、現在の知覚(信念)と将来の目標(意図)のバランスをとる安定したトークンダイナミクスを自発的に発達させる。
このプロセスには「時間的曖昧さ」が伴い、不確実性と継続的な自己最適化の下で堅牢性を実現する。
知性はピクセルの忠実さではなく、信念と意図のトークン化された双対性にある。
TIWMは、世界モデルとVLAシステムのギャップを埋め、想像力を通じて計画する監視エージェントの道を開く。
注: nuPlanは計画に焦点を絞ったより困難な評価を示すため、nuScenesの結果を報告する方法と数値的な比較が示されるのみである。
関連論文リスト
- Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Discrete JEPA: Learning Discrete Token Representations without Reconstruction [23.6286989806018]
認知知性の象徴的な基礎は、観測から隠れたパターンを抽出することにある。
本稿では,意味的トークン化による潜在予測符号化フレームワークであるDisdisrete-JEPAを提案する。
我々のアプローチは、人工知能システムにおける世界モデリングと計画能力の進歩に大きな影響を与えることを約束する。
論文 参考訳(メタデータ) (2025-06-17T10:15:17Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action Recognition and More [7.797154022794006]
本稿では,イベントに基づく行動認識をモーダルな概念化の観点から支援する新しいアプローチであるExACTを提案する。
実験の結果、当社のExACTは、PAF、HARDVS、SeActデータセットでそれぞれ94.83%(+2.23%)、90.10%(+37.47%)、67.24%の認識精度を達成していることがわかった。
論文 参考訳(メタデータ) (2024-03-19T08:15:53Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。