論文の概要: Hierarchical Reasoning with Vision-Language Models for Incident Reports from Dashcam Videos
- arxiv url: http://arxiv.org/abs/2510.12190v1
- Date: Tue, 14 Oct 2025 06:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.20942
- Title: Hierarchical Reasoning with Vision-Language Models for Incident Reports from Dashcam Videos
- Title(参考訳): ダッシュカム映像からのインシデント報告のための視覚言語モデルを用いた階層的推論
- Authors: Shingo Yokoi, Kento Sasaki, Yu Yamaguchi,
- Abstract要約: 本稿では,ダッシュカムビデオからのインシデントレポート生成のための階層的推論フレームワークを提案する。
視覚言語モデルにフレームレベルのキャプション、インシデントフレームの検出、微粒化推論を統合する。
公式の2COOOLオープンリーダーボードでは、29チーム中2位にランクされ、最高のCIDEr-Dスコアを獲得しています。
- 参考スコア(独自算出の注目度): 0.03598453624340711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in end-to-end (E2E) autonomous driving have been enabled by training on diverse large-scale driving datasets, yet autonomous driving models still struggle in out-of-distribution (OOD) scenarios. The COOOL benchmark targets this gap by encouraging hazard understanding beyond closed taxonomies, and the 2COOOL challenge extends it to generating human-interpretable incident reports. We present a hierarchical reasoning framework for incident report generation from dashcam videos that integrates frame-level captioning, incident frame detection, and fine-grained reasoning within vision-language models (VLMs). We further improve factual accuracy and readability through model ensembling and a Blind A/B Scoring selection protocol. On the official 2COOOL open leaderboard, our method ranks 2nd among 29 teams and achieves the best CIDEr-D score, producing accurate and coherent incident narratives. These results indicate that hierarchical reasoning with VLMs is a promising direction for accident analysis and for broader understanding of safety-critical traffic events. The implementation and code are available at https://github.com/riron1206/kaggle-2COOOL-2nd-Place-Solution.
- Abstract(参考訳): エンド・ツー・エンド(E2E)自動運転の最近の進歩は、様々な大規模運転データセットのトレーニングによって実現されているが、自律運転モデルは、まだアウト・オブ・ディストリビューション(OOD)のシナリオに苦戦している。
COOOLベンチマークは、クローズドな分類学を超えたハザード理解を促進することによって、このギャップを目標としており、2COOOLチャレンジは、人間に解釈可能なインシデントレポートを生成するように拡張している。
本稿では、フレームレベルのキャプション、インシデントフレームの検出、視覚言語モデル(VLM)におけるきめ細かい推論を統合したダシュカムビデオからのインシデントレポート生成のための階層的推論フレームワークを提案する。
我々はさらに、Blind A/B Scoring selectionプロトコルとモデルアンサンブルにより、事実の精度と可読性を向上する。
公式の2COOOLオープンリーダーボードでは、29チーム中2位にランクされ、最高のCIDEr-Dスコアを獲得し、正確で一貫性のあるインシデントストーリーを生み出します。
これらの結果から,VLMによる階層的推論は,事故解析と安全クリティカルな交通事象のより広範な理解に向けて有望な方向であることが示唆された。
実装とコードはhttps://github.com/riron1206/kaggle-2COOOL-2nd-Place-Solutionで公開されている。
関連論文リスト
- Towards Safer and Understandable Driver Intention Prediction [30.136400523083907]
運転者の安全のために,運転予測における解釈可能性の課題を紹介する。
解釈可能なDIPの研究を促進するために,新たなマルチモーダル・エゴ中心のビデオデータセットであるDAAD-Xをキュレートする。
次に,コヒーレントな説明を本質的に生成するフレームワークとして,ビデオコンセプト・ボトルネック・モデル(VCBM)を提案する。
論文 参考訳(メタデータ) (2025-10-10T09:41:25Z) - CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine [73.74077186298523]
CoReVLAは、自動運転のための継続的学習フレームワークである。
データコレクションとビヘイビアリファインメントの2段階プロセスを通じて、ロングテールシナリオのパフォーマンスを改善する。
CoReVLAは72.18のドライビングスコア(DS)と50%の成功率(SR)を達成し、7.96DSの最先端手法と15%SRの長期的安全クリティカルシナリオで性能を向上する。
論文 参考訳(メタデータ) (2025-09-19T13:25:56Z) - MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding [7.093473654069259]
視覚と言語間の因果構造を潜在的に構築する新しいマルチモーダル因果解析モデル(MCAM)を提案する。
BDD-XとCoVLAデータセットの実験は、MCAMが視覚言語と因果関係学習においてSOTAのパフォーマンスを達成することを示した。
このモデルは、ビデオシーケンス内の因果特性を捉える能力に優れており、自律運転への適用性を示している。
論文 参考訳(メタデータ) (2025-07-08T15:14:53Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Cognitive Accident Prediction in Driving Scenes: A Multimodality
Benchmark [77.54411007883962]
本研究では,視覚的観察と運転者の注意に対する人為的な文章記述の認識を効果的に活用し,モデルトレーニングを容易にする認知事故予測手法を提案する。
CAPは、注意テキスト〜ビジョンシフト融合モジュール、注意シーンコンテキスト転送モジュール、運転注意誘導事故予測モジュールによって構成される。
我々は,1,727件の事故ビデオと219万フレーム以上の大規模ベンチマークを構築した。
論文 参考訳(メタデータ) (2022-12-19T11:43:02Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。