論文の概要: VideoAgent: Long-form Video Understanding with Large Language Model as Agent
- arxiv url: http://arxiv.org/abs/2403.10517v1
- Date: Fri, 15 Mar 2024 17:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:11:26.539041
- Title: VideoAgent: Long-form Video Understanding with Large Language Model as Agent
- Title(参考訳): VideoAgent: エージェントとしての大規模言語モデルによる長めのビデオ理解
- Authors: Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy,
- Abstract要約: 本稿では,大規模言語モデルを中心的エージェントとして利用して,重要な情報を特定し,コンパイルして質問に答える,新たなエージェントベースシステムであるVideoAgentを紹介する。
本研究では,現在の最先端手法よりも優れた手法の有効性と効率性を示す。
- 参考スコア(独自算出の注目度): 26.903040507914053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize interactive reasoning and planning over the ability to process lengthy visual inputs. We introduce a novel agent-based system, VideoAgent, that employs a large language model as a central agent to iteratively identify and compile crucial information to answer a question, with vision-language foundation models serving as tools to translate and retrieve visual information. Evaluated on the challenging EgoSchema and NExT-QA benchmarks, VideoAgent achieves 54.1% and 71.3% zero-shot accuracy with only 8.4 and 8.2 frames used on average. These results demonstrate superior effectiveness and efficiency of our method over the current state-of-the-art methods, highlighting the potential of agent-based approaches in advancing long-form video understanding.
- Abstract(参考訳): ロングフォームビデオ理解はコンピュータビジョンにおいて重要な課題であり、長いマルチモーダルシーケンスを推論できるモデルを必要とする。
人間の認知プロセスに動機付けられて、長い視覚的入力を処理する能力に対して、対話的推論と計画を強調した。
本稿では,視覚情報を翻訳・検索するツールとしての視覚言語基盤モデルを用いて,重要な情報を反復的に識別・コンパイルするために,大規模言語モデルを中心エージェントとして利用する新しいエージェントベースシステムであるVideoAgentを紹介する。
挑戦的なEgoSchemaとNEXT-QAベンチマークに基づいて、VideoAgentは平均8.4フレームと8.2フレームしか使用せず、54.1%と71.3%のゼロショット精度を達成した。
これらの結果から,提案手法が現在最先端の手法よりも優れた効果と効率性を示し,長文ビデオ理解の進歩におけるエージェントベースアプローチの可能性を強調した。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding [28.316828641898375]
VideoAgent: 1)は、一般的な時間的イベント記述と、ビデオのオブジェクト中心のトラッキング状態の両方を格納する構造化メモリを構築する。
2) 入力タスククエリが与えられた場合,ビデオセグメントのローカライゼーションやオブジェクトメモリクエリなどのツールと,他の視覚基盤モデルを用いて対話的にタスクを解く。
論文 参考訳(メタデータ) (2024-03-18T05:07:59Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。