論文の概要: V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2503.11495v1
- Date: Fri, 14 Mar 2025 15:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:02.791692
- Title: V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning
- Title(参考訳): V-STaR:ビデオ時空間推論におけるビデオLLMのベンチマーク
- Authors: Zixu Cheng, Jian Hu, Ziquan Liu, Chenyang Si, Wei Li, Shaogang Gong,
- Abstract要約: これらの問題点に対処するために,ビデオS-テンポラル推論(V-STa)ベンチマークを導入する。
我々は,ビデオLLMの時空間推論プロセスを実現するためのデータセットを構築した。
14のビデオ-LLMによる実験では、現在のビデオ-LLMと、堅牢で一貫性のある推論の必要性の間に大きなギャップが示されている。
- 参考スコア(独自算出の注目度): 40.18308199837137
- License:
- Abstract: Human processes video reasoning in a sequential spatio-temporal reasoning logic, we first identify the relevant frames ("when") and then analyse the spatial relationships ("where") between key objects, and finally leverage these relationships to draw inferences ("what"). However, can Video Large Language Models (Video-LLMs) also "reason through a sequential spatio-temporal logic" in videos? Existing Video-LLM benchmarks primarily focus on assessing object presence, neglecting relational reasoning. Consequently, it is difficult to measure whether a model truly comprehends object interactions (actions/events) in videos or merely relies on pre-trained "memory" of co-occurrences as biases in generating answers. In this work, we introduce a Video Spatio-Temporal Reasoning (V-STaR) benchmark to address these shortcomings. The key idea is to decompose video understanding into a Reverse Spatio-Temporal Reasoning (RSTR) task that simultaneously evaluates what objects are present, when events occur, and where they are located while capturing the underlying Chain-of-thought (CoT) logic. To support this evaluation, we construct a dataset to elicit the spatial-temporal reasoning process of Video-LLMs. It contains coarse-to-fine CoT questions generated by a semi-automated GPT-4-powered pipeline, embedding explicit reasoning chains to mimic human cognition. Experiments from 14 Video-LLMs on our V-STaR reveal significant gaps between current Video-LLMs and the needs for robust and consistent spatio-temporal reasoning.
- Abstract(参考訳): 映像推論を逐次時相的推論論理で処理し、まず関連するフレーム(「いつ」)を特定し、次にキーオブジェクト間の空間的関係(「どこで」)を分析し、最後にこれらの関係を利用して推論(「何」)を描画する。
しかし、ビデオ大言語モデル (Video-LLMs) はビデオにおいて「逐次時相論理による推論」が可能か?
既存のVideo-LLMベンチマークは主にオブジェクトの存在を評価し、リレーショナル推論を無視している。
したがって、モデルがビデオ内のオブジェクトの相互作用(アクション/イベント)を真に理解しているかどうかを測定することは困難である。
本稿では,これらの問題点に対処するためのV-STaR(Video Spatio-Temporal Reasoning)ベンチマークを提案する。
キーとなる考え方は、ビデオ理解をReverse Spatio-Temporal Reasoning (RSTR)タスクに分解することであり、それは、どのオブジェクトが存在するか、イベントが発生したとき、そしてそれらがどこにいるかを、基礎となるChain-of-Thought(CoT)ロジックをキャプチャしながら同時に評価する。
この評価を支援するために,ビデオLLMの空間的・時間的推論プロセスを実現するデータセットを構築した。
半自動GPT-4駆動パイプラインによって生成される粗いCoT質問を含み、人間の認知を模倣するために明確な推論チェーンを埋め込む。
V-STaR上の14のビデオLLMによる実験では、現在のビデオLLMと、堅牢で一貫した時空間的推論の必要性との間に大きなギャップがあることが判明した。
関連論文リスト
- TimeLogic: A Temporal Logic Benchmark for Video QA [64.32208175236323]
時間的論理的質問を自動的に生成するTimeLogic QA(TLQA)フレームワークを導入する。
私たちはSTAR、Breakfast、AGQA、CrossTaskの4つのデータセットを活用し、カテゴリ毎に2kと10kのQAペアを生成します。
時間的複雑性の異なる16カテゴリの時間論理に対して,ビデオQAモデルの時間的推論性能を評価する。
論文 参考訳(メタデータ) (2025-01-13T11:12:59Z) - Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering [0.9712140341805068]
本稿では,実世界のビデオQAタスクに対して,Symbolic-world VideoQA (NSVideo-QA) というニューラルシンボリックなフレームワークを提案する。
NSVideo-QAは、構成質問に答える際の内部整合性を示し、ビデオQAタスクの論理推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-05T10:30:38Z) - Keyword-Aware Relative Spatio-Temporal Graph Networks for Video Question
Answering [16.502197578954917]
ビデオQAのグラフベースのメソッドは通常、質問のキーワードを無視し、機能を集約するために単純なグラフを使用する。
ビデオQAのためのキーワード対応相対時空間(KRST)グラフネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T04:41:32Z) - Discovering Spatio-Temporal Rationales for Video Question Answering [68.33688981540998]
本稿では,複数のオブジェクトやイベントを異なる時間に含む長編映像を特徴とする,複雑なビデオ質問応答(VideoQA)の解法を提案する。
本稿では,モーダル間相互作用を用いて質問クリティカルなモーメントやオブジェクトを適応的に収集する時空間合理化法を提案する。
また、STRをコアとし、新たな応答相互作用機構を基盤とするトランスフォーマースタイルのニューラルネットワークアーキテクチャであるTranSTRを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:00:26Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。