論文の概要: Token Is All You Need: Cognitive Planning through Belief-Intent Co-Evolution
- arxiv url: http://arxiv.org/abs/2511.05540v2
- Date: Tue, 11 Nov 2025 18:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.034072
- Title: Token Is All You Need: Cognitive Planning through Belief-Intent Co-Evolution
- Title(参考訳): Tokenは必要なものすべて: 信頼と信頼の共進化による認知的計画
- Authors: Shiyao Sang,
- Abstract要約: 意味的に豊かなトークンの最小セット内での信念と意図の共進化から効果的な計画が生じることを示す。
知性はピクセルの忠実さではなく、信念と意図のトークン化された双対性にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We challenge the long-standing assumption that exhaustive scene modeling is required for high-performance end-to-end autonomous driving (E2EAD). Inspired by cognitive science, we propose that effective planning arises not from reconstructing the world, but from the co-evolution of belief and intent within a minimal set of semantically rich tokens. Experiments on the nuPlan benchmark (720 scenarios, 11k+ samples) reveal three principles: (1) sparse intent tokens alone achieve 0.487 m ADE, demonstrating strong performance without future prediction; (2) conditioning trajectory decoding on predicted future tokens reduces ADE to 0.382 m, a 21.6% improvement, showing that performance emerges from cognitive planning; and (3) explicit reconstruction loss degrades performance, confirming that task-driven belief-intent co-evolution suffices under reliable perception inputs. Crucially, we observe the emergence of cognitive consistency: through prolonged training, the model spontaneously develops stable token dynamics that balance current perception (belief) and future goals (intent). This process, accompanied by "temporal fuzziness," enables robustness under uncertainty and continuous self-optimization. Our work establishes a new paradigm: intelligence lies not in pixel fidelity, but in the tokenized duality of belief and intent. By reframing planning as understanding rather than reaction, TIWM bridges the gap between world models and VLA systems, paving the way for foresightful agents that plan through imagination. Note: Numerical comparisons with methods reporting results on nuScenes are indicative only, as nuPlan presents a more challenging planning-focused evaluation.
- Abstract(参考訳): 我々は、高性能エンドツーエンド自動運転(E2EAD)において、徹底的なシーンモデリングが必要とされるという長年の前提に挑戦する。
認知科学にインスパイアされた我々は、効果的な計画は世界を再構築することではなく、最小限の意味論的に豊かなトークンの集合の中で、信念と意図の共進化から生まれることを提案する。
nuPlanベンチマーク (720のシナリオ、11k以上のサンプル) の実験では、3つの原則が示されている: 1) 少ない意図トークンだけで0.487m ADEを達成し、将来の予測なしに強力なパフォーマンスを示し、(2) 予測される将来のトークンに対する条件付き軌道デコーディングはADEを0.382mに減少させ、21.6%の改善により、認知計画からパフォーマンスが出現することを示し、(3) 明示的な再構築損失はパフォーマンスを低下させ、タスク駆動の信念に基づく共進化が信頼性のあるインプットの下で十分であることを確認した。
重要なことに、認知的一貫性の出現を観察する: 長期間のトレーニングを通じて、モデルは、現在の知覚(信念)と将来の目標(意図)のバランスをとる安定したトークンダイナミクスを自発的に発達させる。
このプロセスには「時間的曖昧さ」が伴い、不確実性と継続的な自己最適化の下で堅牢性を実現する。
知性はピクセルの忠実さではなく、信念と意図のトークン化された双対性にある。
TIWMは、世界モデルとVLAシステムのギャップを埋め、想像力を通じて計画する監視エージェントの道を開く。
注: nuPlanは計画に焦点を絞ったより困難な評価を示すため、nuScenesの結果を報告する方法と数値的な比較が示されるのみである。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents [49.119608399413806]
大規模言語モデル(LLM)は、多ターン意思決定タスクのための自律エージェントとして、ますます多くデプロイされている。
本稿では,エージェントが各ステップで認知深度を動的に適応するように訓練するフレームワークであるCogを紹介する。
ALFWorldとScienceWorldの実験では、Cogは最先端のパフォーマンスを優れた効率で達成している。
論文 参考訳(メタデータ) (2026-02-13T06:52:09Z) - TangramSR: Can Vision-Language Models Reason in Continuous Geometric Space? [11.222572150508332]
人間は、心的回転、反復的洗練、視覚的フィードバックを含む認知プロセスを通じて、タングラムパズルの組み立てのような空間的推論タスクに優れる。
しかし、VLM(Vision-Language Models)の5つにまたがる総合的な実験では、連続的な幾何学的推論における体系的な失敗が明らかになった。
本研究では,インコンテクスト学習(ICL)と報酬誘導フィードバックループを組み合わせた,人間の認知プロセスにインスパイアされたテストタイムセルフリファインメントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T11:49:30Z) - Active Intelligence in Video Avatars via Closed-loop World Modeling [55.29966567726842]
現在のビデオアバター生成法は、アイデンティティの保存と動きのアライメントが優れているが、真のエージェンシーは欠如している。
本稿では,L-IVA (Long-Horizon Interactive Visual Avatar) の導入について述べる。
また,ビデオアバターにおける能動的インテリジェンスを実現する最初のフレームワークであるORCAについても紹介する。
論文 参考訳(メタデータ) (2025-12-23T18:59:16Z) - Metacognitive Sensitivity for Test-Time Dynamic Model Selection [0.0]
我々は、AIメタ認知を評価し、活用するための新しいフレームワークを提案する。
メタ認知感度の心理学的評価尺度「メタd」を導入し,モデルの信頼度がモデルの精度を確実に予測できるかを特徴付ける。
次に、この動的感度スコアを、テスト時間モデル選択を行うバンドベースのアービタのコンテキストとして使用する。
論文 参考訳(メタデータ) (2025-12-11T09:15:05Z) - A Neuro-Symbolic Framework for Reasoning under Perceptual Uncertainty: Bridging Continuous Perception and Discrete Symbolic Planning [1.9236465591431287]
本稿では,認識から計画への不確実性を明確にモデル化し,伝播するニューロシンボリックな枠組みを提案する。
具体的応用としてのテーブルトップロボット操作におけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-11-18T14:38:01Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Discrete JEPA: Learning Discrete Token Representations without Reconstruction [23.6286989806018]
認知知性の象徴的な基礎は、観測から隠れたパターンを抽出することにある。
本稿では,意味的トークン化による潜在予測符号化フレームワークであるDisdisrete-JEPAを提案する。
我々のアプローチは、人工知能システムにおける世界モデリングと計画能力の進歩に大きな影響を与えることを約束する。
論文 参考訳(メタデータ) (2025-06-17T10:15:17Z) - Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。
本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。
この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文 参考訳(メタデータ) (2024-11-03T17:32:00Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action Recognition and More [7.797154022794006]
本稿では,イベントに基づく行動認識をモーダルな概念化の観点から支援する新しいアプローチであるExACTを提案する。
実験の結果、当社のExACTは、PAF、HARDVS、SeActデータセットでそれぞれ94.83%(+2.23%)、90.10%(+37.47%)、67.24%の認識精度を達成していることがわかった。
論文 参考訳(メタデータ) (2024-03-19T08:15:53Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。