論文の概要: RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph
- arxiv url: http://arxiv.org/abs/2505.03173v1
- Date: Tue, 06 May 2025 04:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.206081
- Title: RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph
- Title(参考訳): RAVU: グラフ上での合成推論による検索ビデオ理解
- Authors: Sameer Malik, Moyuru Yamada, Ayush Singh, Dishank Aggarwal,
- Abstract要約: RAVUは、時間グラフ上の推論による検索によるビデオ強化理解のためのフレームワークである。
我々は,エンティティ間の空間的および時間的関係の両方をキャプチャーするグラフ表現を構築した。
複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、グラフ上でこれらのステップを実行する。
提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
- 参考スコア(独自算出の注目度): 3.1671311914949545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehending long videos remains a significant challenge for Large Multi-modal Models (LMMs). Current LMMs struggle to process even minutes to hours videos due to their lack of explicit memory and retrieval mechanisms. To address this limitation, we propose RAVU (Retrieval Augmented Video Understanding), a novel framework for video understanding enhanced by retrieval with compositional reasoning over a spatio-temporal graph. We construct a graph representation of the video, capturing both spatial and temporal relationships between entities. This graph serves as a long-term memory, allowing us to track objects and their actions across time. To answer complex queries, we decompose the queries into a sequence of reasoning steps and execute these steps on the graph, retrieving relevant key information. Our approach enables more accurate understanding of long videos, particularly for queries that require multi-hop reasoning and tracking objects across frames. Our approach demonstrate superior performances with limited retrieved frames (5-10) compared with other SOTA methods and baselines on two major video QA datasets, NExT-QA and EgoSchema.
- Abstract(参考訳): ロングビデオの補完は、LMM(Large Multi-modal Models)にとって重要な課題である。
現在のLMMは、明示的な記憶と検索機構が欠如しているため、数分から数時間のビデオを処理するのに苦労している。
この制限に対処するために、時空間グラフ上の合成推論による検索により強化されたビデオ理解のための新しいフレームワークであるRAVU(Retrieval Augmented Video Understanding)を提案する。
ビデオのグラフ表現を構築し、エンティティ間の空間的および時間的関係をキャプチャする。
このグラフは長期記憶として機能し、時間をかけてオブジェクトとそのアクションを追跡することができます。
複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、これらのステップをグラフ上で実行し、関連するキー情報を取得する。
提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
提案手法は,NExT-QAとEgoSchemaの2つの主要なビデオQAデータセットにおいて,他のSOTA手法とベースラインと比較して,検索フレーム(5-10)に制限のある優れた性能を示す。
関連論文リスト
- HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Multi-object event graph representation learning for Video Question Answering [4.236280446793381]
本稿では,この制限に対処するため,CLanGと呼ばれる言語イベントグラフ表現学習手法を提案する。
提案手法は,2つの挑戦的ビデオQA, NExT-QA, TGIF-QA-Rデータセットの精度を最大2.2%向上させる。
論文 参考訳(メタデータ) (2024-09-12T04:42:51Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering [75.01757991135567]
本稿では,動画をエンドツーエンドで処理するDual-Visual Graph Reasoning Unit (DualVGR)を提案する。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-07-10T06:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。