論文の概要: From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2512.05277v1
- Date: Thu, 04 Dec 2025 21:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.826136
- Title: From Segments to Scenes: Temporal Understanding in Autonomous Driving via Vision-Language Model
- Title(参考訳): セグメントからシーンへ:ビジョンランゲージモデルによる自律走行の時間的理解
- Authors: Kevin Cannons, Saeed Ranjbar Alvar, Mohammad Asiful Hossain, Ahmad Rezaei, Mohsen Gholami, Alireza Heidarikhazaei, Zhou Weimin, Yong Zhang, Mohammad Akbari,
- Abstract要約: 自律運転(AD)の時間的理解は依然として重要な課題である。
以前の作業では、時間的推論を改善するためのデータセットとベンチマークが導入されていた。
既存のベンチマークでは、エゴ中心のAD映像における時間的理解の独特な課題にのみ焦点が当てられていない。
- 参考スコア(独自算出の注目度): 13.666165551248701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal understanding in autonomous driving (AD) remains a significant challenge, even for recent state-of-the-art (SoTA) Vision-Language Models (VLMs). Prior work has introduced datasets and benchmarks aimed at improving temporal reasoning, but these have emphasized other video content, including sports, cooking, and movies. No existing benchmark focuses exclusively on the unique challenges of temporal understanding in ego-centric AD footage. To fill this gap, the Temporal Understanding in Autonomous Driving (TAD) benchmark is presented, which evaluates VLMs' ability to capture the dynamic relationships between actions in AD. TAD comprises nearly 6,000 question-answer (QA) pairs, spanning 7 human-designed tasks. In addition, an evaluation is performed that consists of 9 closed- and open-source generalist models as well as SoTA AD specialist models. When applied to TAD, current SoTA models demonstrated substandard accuracies, largely due to imperfect fine-grained motion understanding. To improve motion understanding and overall accuracy on TAD, two novel training-free solutions are proposed: Scene-CoT, that leverages Chain-of-Thought (CoT) and TCogMap, which incorporates an ego-centric temporal cognitive map. The proposed approaches are integrated with existing VLMs and improve average accuracy on TAD by up to 17.72%. By introducing TAD, benchmarking multiple SoTA models, and proposing effective enhancements, this work aims to catalyze future research on temporal understanding in AD. The benchmark and evaluation code are available at \href{https://huggingface.co/datasets/vbdai/TAD}{Hugging Face} and \href{https://github.com/vbdi/tad_bench}{Github}, respectively.
- Abstract(参考訳): 自律運転(AD)の時間的理解は、最近の最先端(SoTA)ビジョン・ランゲージ・モデル(VLM)においても重要な課題である。
以前の作業では、時間的推論を改善するためのデータセットとベンチマークが導入されていたが、これらはスポーツ、料理、映画など他のビデオコンテンツを強調してきた。
既存のベンチマークでは、エゴ中心のAD映像における時間的理解の独特な課題にのみ焦点が当てられていない。
このギャップを埋めるために、TAD(Temporal Understanding in Autonomous Driving)ベンチマークが提示され、VLMがAD内のアクション間の動的関係をキャプチャする能力を評価する。
TADは6000近い質問応答(QA)ペアで構成され、7つの人間設計タスクにまたがる。
さらに、9つのクローズドおよびオープンソースジェネリストモデルとSoTA ADスペシャリストモデルからなる評価を行う。
TADに適用した場合、現在のSoTAモデルは、主に不完全な微粒な運動理解のため、準標準精度を示した。
運動理解とTADの総合的精度を改善するために、チェイン・オブ・ソート(CoT)を利用するScene-CoTと、エゴ中心の時間認知マップを組み込んだTCogMapの2つの新しいトレーニングフリーソリューションが提案されている。
提案手法は既存のVLMと統合され、TADの平均精度を最大17.72%向上させる。
TADの導入、複数のSoTAモデルのベンチマーク、効果的な拡張の提案により、ADにおける時間的理解に関する将来の研究を触媒することを目的としている。
ベンチマークと評価コードは、それぞれ \href{https://huggingface.co/datasets/vbdai/TAD}{Hugging Face} と \href{https://github.com/vbdi/tad_bench}{Github} で公開されている。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - VAGU & GtS: LLM-Based Benchmark and Framework for Joint Video Anomaly Grounding and Understanding [22.43740206690383]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定し、その時間間隔を正確に決定することを目的としている。
VAGUは、異常理解と接地を統合する最初のベンチマークである。
Glance then Scrutinize (GtS) はテキストプロンプトでガイドされるトレーニング不要のフレームワークである。
また,意味的解釈可能性と時間的精度を共同で評価するJeAUG指標を提案する。
論文 参考訳(メタデータ) (2025-07-29T05:17:48Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - Dynamic-Aware Video Distillation: Optimizing Temporal Resolution Based on Video Semantics [68.85010825225528]
ビデオデータセットは、時間的情報の存在と異なるクラスにまたがる様々なレベルの冗長性によって、ユニークな課題を示す。
既存のDDアプローチでは、すべての異なるビデオセマンティクスにおける時間的冗長性を均一に仮定し、ビデオデータセットにおけるその有効性を制限している。
合成ビデオの時間分解能を最適に予測するための強化学習(RL)アプローチである動的認識ビデオ蒸留(DAViD)を提案する。
論文 参考訳(メタデータ) (2025-05-28T11:43:58Z) - ChronoSense: Exploring Temporal Understanding in Large Language Models with Time Intervals of Events [0.20132569095596248]
我々はChronoSenseについて紹介する。ChronoSenseは大規模言語モデルの時間的理解を評価するための新しいベンチマークである。
このベンチマークを用いて7つのLLMの性能評価を行い, モデルがアレン関係, 対称関係であっても, 全く異なる扱いをすることを示した。
全体として、モデルの性能の低さは、LLMにおける時間的理解の改善の必要性を強調している。
論文 参考訳(メタデータ) (2025-01-06T14:27:41Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。