論文の概要: From Prompts to Pavement Through Time: Temporal Grounding in Agentic Scene-to-Plan Reasoning
- arxiv url: http://arxiv.org/abs/2605.19824v1
- Date: Tue, 19 May 2026 13:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.365469
- Title: From Prompts to Pavement Through Time: Temporal Grounding in Agentic Scene-to-Plan Reasoning
- Title(参考訳): プロンプトから舗装へ:エージェント・シーン・to・プラン・推論における時間的接地
- Authors: Ahmed Y. Gado, Omar Y. Goba, Alaa Hassanein, Catherine M. Elias, Ahmed Hussein,
- Abstract要約: 本研究は, エージェント間コミュニケーションにおける時間的条件付けが, 意味的・論理的一貫性の低下を伴わずにコヒーレンスを維持・強化できるかどうかを考察する。
その結果,時間的条件付けは推論スタイルに反するが,標準NLPに基づく正当性測定では統計的に有意な改善は得られなかった。
これらの結果から,プロンプトベースの時間的接地限界を明らかにし,時間的シーンから計画的推論のための最初の経験的基準を確立した。
- 参考スコア(独自算出の注目度): 1.2777067998526854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent attempts to support high-level scene interpretation and planning in Autonomous Vehicles (AVs) using ensembles of Large Language Models (LLMs) and Large Multimodal Models (LMMs) continue to treat time as a secondary property. This lack of temporal grounding leads to inconsistencies in reasoning about continuous actions, undermining both safety and interpretability. This work explores whether temporal conditioning within inter-agent communication can preserve or enhance coherence without introducing degradation in semantic or logical consistency. To investigate this, we introduce three planner architectures with progressively increasing temporal integration and evaluate them on curated subsets of the BDD-X dataset using semantic, syntactic, and logical metrics. Results show that while temporal conditioning reshapes reasoning style, it yields no statistically significant improvements in standard NLP-based correctness metrics. However, qualitative analysis reveals predictive hazard reasoning, stable corrective behavior, and strategic divergence in the Sentinel. These findings clarify the limits of prompt-based temporal grounding and establish the first empirical benchmark for temporal scene-to-plan reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)のアンサンブルを用いた自律走行車(AV)における高レベルシーンの解釈と計画を支援する試みは,現在なお二次的財産として扱われている。
この時間的根拠の欠如は、継続的な行動についての推論の不整合を招き、安全性と解釈可能性の両方を損なう。
本研究は, エージェント間コミュニケーションにおける時間的条件付けが, 意味的・論理的一貫性の低下を伴わずにコヒーレンスを維持・強化できるかどうかを考察する。
そこで我々は,時間的統合を徐々に増加させる3つのプランナーアーキテクチャを導入し,セマンティック,構文,論理メトリクスを用いてBDD-Xデータセットのキュレートされたサブセット上で評価する。
その結果,時間的条件付けは推論スタイルに反するが,標準NLPに基づく正当性測定では統計的に有意な改善は得られなかった。
しかし質的な分析により、センチネルにおける予測的危険推論、安定した修正行動、戦略的分岐が明らかになった。
これらの結果から,プロンプトベースの時間的接地限界を明らかにし,時間的シーンから計画的推論のための最初の経験的基準を確立した。
関連論文リスト
- Tracking the Truth: Object-Centric Spatio-Temporal Monitoring for Video Large Language Models [154.39583176906893]
大規模言語モデル(ML)は高度な理解を持ち、シーンにおける幻覚の傾向が高い。
これは、時間的モニタリングの失敗、オブジェクトの動的アイデンティティ、状態、そして時間とともに関係を永続的に追跡する能力に起因している、と我々は主張する。
既存のベンチマークでは、局所的な視覚的手がかりや統計的先行によってしばしば解決される1つの最終回答クエリに頼って、この欠陥を曖昧にしている。
論文 参考訳(メタデータ) (2026-05-09T14:32:36Z) - Spatiotemporal Hidden-State Dynamics as a Signature of Internal Reasoning in Large Language Models [0.0]
内部表現は正確性に関連する信号を運ぶが、その粗い凝集はトークンや層構造を曖昧にする可能性がある。
本研究では,デコードステップとレイヤ間の隠れ状態遷移を調査し,大きな推論モデル(LRM)のパターンを同定する。
我々は,この特徴を遅延遷移の時空間振幅 (StALT) として定式化する。これは,層内サリエンスによって重み付けられた隣接トークン間の時間的変化を要約する統計軌道である。
論文 参考訳(メタデータ) (2026-05-03T12:46:41Z) - Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning [17.08518699175473]
運転支援システムとして応用されたビジョン・ランゲージ・モデル(VLM)は,現状の観測結果が今後の成果をどう形作るのかを概説し,理解することができるかを検討する。
強い視覚的理解を持つモデルは、時間的推論を必要とするタスクにおいて必ずしも最善を尽くさない。
本稿では、時間ラベルを必要とせず、一貫性と時間的推論の両方を改善するチェーン・オブ・ソート推論を用いた、シンプルで効果的な自己教師付きチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-03-10T11:12:28Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - Generic Temporal Reasoning with Differential Analysis and Explanation [61.96034987217583]
時間差分解析でギャップを埋めるTODAYという新しいタスクを導入する。
TODAYは、システムがインクリメンタルな変化の効果を正しく理解できるかどうかを評価する。
共同学習においてTODAYの指導スタイルと説明アノテーションが有効であることを示す。
論文 参考訳(メタデータ) (2022-12-20T17:40:03Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。