論文の概要: VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2409.20365v1
- Date: Mon, 30 Sep 2024 15:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:56:35.950614
- Title: VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs
- Title(参考訳): VideoINSTA: LLMを用いたインフォーマティブ空間時間推論によるゼロショット長ビデオ理解
- Authors: Ruotong Liao, Max Erler, Huiyu Wang, Guangyao Zhai, Gengyuan Zhang, Yunpu Ma, Volker Tresp,
- Abstract要約: 長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。
Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。
提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 27.473258727617477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the video-language domain, recent works in leveraging zero-shot Large Language Model-based reasoning for video understanding have become competitive challengers to previous end-to-end models. However, long video understanding presents unique challenges due to the complexity of reasoning over extended timespans, even for zero-shot LLM-based approaches. The challenge of information redundancy in long videos prompts the question of what specific information is essential for large language models (LLMs) and how to leverage them for complex spatial-temporal reasoning in long-form video analysis. We propose a framework VideoINSTA, i.e. INformative Spatial-TemporAl Reasoning for zero-shot long-form video understanding. VideoINSTA contributes (1) a zero-shot framework for long video understanding using LLMs; (2) an event-based temporal reasoning and content-based spatial reasoning approach for LLMs to reason over spatial-temporal information in videos; (3) a self-reflective information reasoning scheme balancing temporal factors based on information sufficiency and prediction confidence. Our model significantly improves the state-of-the-art on three long video question-answering benchmarks: EgoSchema, NextQA, and IntentQA, and the open question answering dataset ActivityNetQA. The code is released here: https://github.com/mayhugotong/VideoINSTA.
- Abstract(参考訳): ビデオ言語領域では、ビデオ理解のためのゼロショットのLarge Language Modelベースの推論を利用した最近の研究が、従来のエンドツーエンドモデルと競合する問題となっている。
しかし、長いビデオ理解は、ゼロショットLCMベースのアプローチであっても、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を呈している。
長ビデオにおける情報冗長性の課題は、大規模言語モデル(LLM)にどのような情報が必要なのか、そしてそれを長期ビデオ解析における複雑な時空間推論にどのように活用するかという問題を引き起こす。
Informative Spatial-TemporAl Reasoning for zero-shot long-form video understanding。
VideoINSTAは,(1)LLMを用いた長時間ビデオ理解のためのゼロショットフレームワーク,(2)ビデオ内の空間的時間的情報を引き出すイベントベースの時間的推論とコンテンツに基づく空間的推論アプローチ,(3)情報充足性と予測信頼度に基づく時間的要因のバランスをとる自己反射的情報推論スキームを提供する。
EgoSchema、NextQA、IntentQAの3つの長いビデオ質問応答ベンチマークと、オープンな質問応答データセットActivityNetQA。
コードは、https://github.com/mayhugotong/VideoINSTA.comで公開されている。
関連論文リスト
- MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
VideoTreeは、大規模言語モデルによる長いビデオ理解のための、クエリ適応的で階層的なフレームワークである。
VideoTreeは、視覚的特徴に基づいて反復的なクラスタリングフレームによってキャプション用のフレームを適応的に選択する。
ビジュアルクラスタをクエリ適応的で階層的なツリー構造に整理する。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [58.08209212057164]
現在のロングフォームビデオ理解のためのデータセットは、真のロングフォーム理解の課題を提供するのに足りていないことが多い。
我々は、CinePileという新しいデータセットとベンチマークを提示する。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - TempCompass: Do Video LLMs Really Understand Videos? [36.28973015469766]
既存のベンチマークでは、ビデオLLMの時間知覚能力に関する包括的なフィードバックが得られていない。
質の高い時間的側面とタスク形式を多様に導入した textbfTemp ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-01T12:02:19Z) - Video Understanding with Large Language Models: A Survey [97.29126722004949]
言語・マルチモーダルタスクにおける大規模言語モデル(LLM)の顕著な機能を考えると,近年の映像理解の進歩について概観する。
Vid-LLMの創発的能力は驚くほど進歩しており、特にオープンな多粒性推論能力がある。
本調査は,Vid-LLMのタスク,データセット,ベンチマーク,評価方法論に関する総合的研究である。
論文 参考訳(メタデータ) (2023-12-29T01:56:17Z) - A Simple LLM Framework for Long-Range Video Question-Answering [66.68887077133355]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。