論文の概要: iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning
- arxiv url: http://arxiv.org/abs/2509.19552v2
- Date: Wed, 01 Oct 2025 06:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 17:16:29.748822
- Title: iFinder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning
- Title(参考訳): iFinder:Dash-Camビデオ再生のためのゼロショット・ビジョンベースのLLMグラウンド
- Authors: Manyi Yao, Bingbing Zhuang, Sparsh Garg, Amit Roy-Chowdhury, Christian Shelton, Manmohan Chandraker, Abhishek Aich,
- Abstract要約: iFinderは、ダッシュカムのビデオを大規模な言語モデルのための階層的で解釈可能なデータ構造に変換するセマンティックグラウンドディングフレームワークである。
iFinderはトレーニング不要のパイプラインとして動作し、トレーニング済みの視覚モデルを使用して重要な手がかりを抽出する。
これは、4つのゼロショット駆動ベンチマークにおいて、エンドツーエンドのV-VLMよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 51.15353027471834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding large language models (LLMs) in domain-specific tasks like post-hoc dash-cam driving video analysis is challenging due to their general-purpose training and lack of structured inductive biases. As vision is often the sole modality available for such analysis (i.e., no LiDAR, GPS, etc.), existing video-based vision-language models (V-VLMs) struggle with spatial reasoning, causal inference, and explainability of events in the input video. To this end, we introduce iFinder, a structured semantic grounding framework that decouples perception from reasoning by translating dash-cam videos into a hierarchical, interpretable data structure for LLMs. iFinder operates as a modular, training-free pipeline that employs pretrained vision models to extract critical cues -- object pose, lane positions, and object trajectories -- which are hierarchically organized into frame- and video-level structures. Combined with a three-block prompting strategy, it enables step-wise, grounded reasoning for the LLM to refine a peer V-VLM's outputs and provide accurate reasoning. Evaluations on four public dash-cam video benchmarks show that iFinder's proposed grounding with domain-specific cues, especially object orientation and global context, significantly outperforms end-to-end V-VLMs on four zero-shot driving benchmarks, with up to 39% gains in accident reasoning accuracy. By grounding LLMs with driving domain-specific representations, iFinder offers a zero-shot, interpretable, and reliable alternative to end-to-end V-VLMs for post-hoc driving video understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)を、ポストホックダッシュカメラ駆動ビデオ分析のようなドメイン固有のタスクでグラウンディングすることは、汎用的なトレーニングと構造的帰納バイアスの欠如により困難である。
視覚はそのような分析のために利用可能な唯一のモダリティ(LiDAR、GPSなど)であるため、既存のビデオベースの視覚言語モデル(V-VLM)は、入力ビデオにおける事象の空間的推論、因果推論、説明可能性に苦しむ。
そこで本研究では,ダッシュカムビデオからLLMの階層的・解釈可能なデータ構造への変換により,認識を推論から切り離す構造的セマンティックグラウンドディングフレームワークiFinderを紹介する。
iFinderは、事前訓練されたビジョンモデルを使用して、階層的にフレームとビデオレベルの構造に組織された、重要なキュー(オブジェクトポーズ、車線位置、オブジェクト軌跡)を抽出するモジュラーでトレーニング不要なパイプラインとして運用されている。
3ブロックプロンプト戦略と組み合わせて、LLMがピアV-VLMの出力を洗練し、正確な推論を行うためのステップワイズな基底推論を可能にする。
4つのパブリックダッシュカムビデオベンチマークの評価によると、iFinderが提案しているドメイン固有のキュー、特にオブジェクト指向とグローバルコンテキストは、4つのゼロショット駆動ベンチマークでエンドツーエンドのV-VLMよりも大幅に優れており、事故推論精度は最大で39%向上している。
ドメイン固有の表現を駆動することで、iFinderはゼロショット、解釈可能、信頼性の高いV-VLMの代替手段を提供する。
関連論文リスト
- LinkedOut: Linking World Knowledge Representation Out of Video LLM for Next-Generation Video Recommendation [32.57236582010967]
ビデオ大言語モデル(VLLM)は、インターネット規模のデータの事前学習を通じて、世界認知ビデオ理解を解放する。
本稿では,ビデオから直接VLLM世界の知識を抽出し,高速な推論を可能にするLinkedOutを提案する。
我々は、リッチなVLLM機能から適切な抽象化レベルを選択し、パーソナライズ、解釈可能、低レイテンシのレコメンデーションを可能にする層間知識融合MoEを導入する。
論文 参考訳(メタデータ) (2025-12-18T18:52:18Z) - TRANSPORTER: Transferring Visual Semantics from VLM Manifolds [56.749972238005604]
本稿では,ビデオ生成のためのモデルに依存しないアプローチであるTransportERとともに,ロジット・トゥ・ビデオ(L2V)タスクを提案する。
TransporterはVLMの高セマンティック埋め込み空間への最適輸送結合を学習する。
代わりに、ロジットスコアは条件付きビデオ生成のための埋め込み方向を定義する。
論文 参考訳(メタデータ) (2025-11-23T09:12:48Z) - LLM-RG: Referential Grounding in Outdoor Scenarios using Large Language Models [9.647551134303384]
屋外の運転シーンにおける参照グラウンドリングは、大きなシーンの変動、多くの視覚的に類似したオブジェクト、動的要素のために困難である。
LLM-RGは,既製の視覚言語モデルと,記号的推論のための大規模言語モデルを組み合わせたハイブリッドパイプラインである。
論文 参考訳(メタデータ) (2025-09-29T21:32:54Z) - Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation [17.238084264485988]
Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。
bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-09-06T15:46:23Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Understanding Long Videos with Multimodal Language Models [44.78900245769057]
LLM(Large Language Models)は、長いビデオ理解ベンチマークにおいて優れたパフォーマンスを達成するために、最近のアプローチを可能にしている。
本研究では,LLMの広範な世界知識と強力な推論能力が,この強みにどのように影響するかを考察する。
得られたマルチモーダルビデオ理解フレームワークは、複数のビデオ理解ベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-03-25T17:59:09Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。