論文の概要: VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2409.20365v2
- Date: Fri, 4 Oct 2024 21:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 15:48:47.507859
- Title: VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
- Title(参考訳): VideoINSTA: LLMを用いたインフォーマティブ空間時間推論によるゼロショット長ビデオ理解
- Authors: Ruotong Liao, Max Erler, Huiyu Wang, Guangyao Zhai, Gengyuan Zhang, Yunpu Ma, Volker Tresp,
- Abstract要約: 長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。
Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。
提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 27.473258727617477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the video-language domain, recent works in leveraging zero-shot Large Language Model-based reasoning for video understanding have become competitive challengers to previous end-to-end models. However, long video understanding presents unique challenges due to the complexity of reasoning over extended timespans, even for zero-shot LLM-based approaches. The challenge of information redundancy in long videos prompts the question of what specific information is essential for large language models (LLMs) and how to leverage them for complex spatial-temporal reasoning in long-form video analysis. We propose a framework VideoINSTA, i.e. INformative Spatial-TemporAl Reasoning for zero-shot long-form video understanding. VideoINSTA contributes (1) a zero-shot framework for long video understanding using LLMs; (2) an event-based temporal reasoning and content-based spatial reasoning approach for LLMs to reason over spatial-temporal information in videos; (3) a self-reflective information reasoning scheme balancing temporal factors based on information sufficiency and prediction confidence. Our model significantly improves the state-of-the-art on three long video question-answering benchmarks: EgoSchema, NextQA, and IntentQA, and the open question answering dataset ActivityNetQA. The code is released here: https://github.com/mayhugotong/VideoINSTA.
- Abstract(参考訳): ビデオ言語領域では、ビデオ理解のためのゼロショットのLarge Language Modelベースの推論を利用した最近の研究が、従来のエンドツーエンドモデルと競合する問題となっている。
しかし、長いビデオ理解は、ゼロショットLCMベースのアプローチであっても、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を呈している。
長ビデオにおける情報冗長性の課題は、大規模言語モデル(LLM)にどのような情報が必要なのか、そしてそれを長期ビデオ解析における複雑な時空間推論にどのように活用するかという問題を引き起こす。
Informative Spatial-TemporAl Reasoning for zero-shot long-form video understanding。
VideoINSTAは,(1)LLMを用いた長時間ビデオ理解のためのゼロショットフレームワーク,(2)ビデオ内の空間的時間的情報を引き出すイベントベースの時間的推論とコンテンツに基づく空間的推論アプローチ,(3)情報充足性と予測信頼度に基づく時間的要因のバランスをとる自己反射的情報推論スキームを提供する。
EgoSchema、NextQA、IntentQAの3つの長いビデオ質問応答ベンチマークと、オープンな質問応答データセットActivityNetQA。
コードは、https://github.com/mayhugotong/VideoINSTA.comで公開されている。
関連論文リスト
- VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。