論文の概要: VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
- arxiv url: http://arxiv.org/abs/2410.19100v1
- Date: Thu, 24 Oct 2024 19:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:43.362262
- Title: VideoWebArena: Evaluating Long Context Multimodal Agents with Video Understanding Web Tasks
- Title(参考訳): VideoWebArena: ビデオ理解Webタスクによる長時間のマルチモーダルエージェントの評価
- Authors: Lawrence Jang, Yinheng Li, Charles Ding, Justin Lin, Paul Pu Liang, Dan Zhao, Rogerio Bonatti, Kazuhito Koishida,
- Abstract要約: ビデオ理解のための長文マルチモーダルエージェントの性能を評価するためのベンチマークであるVideoWebArenaを紹介する。
本ベンチマークでは,長文ビデオベースエージェントタスクの分類を,スキル保持と事実保持の2つの分野に焦点をあてて定義する。
このモデルでは, 実効保持作業で13.3%, 実効保持QAペアで45.8%を達成でき, それぞれ73.9%, 79.3%と極めて低い結果となった。
- 参考スコア(独自算出の注目度): 40.514672162599815
- License:
- Abstract: Videos are often used to learn or extract the necessary information to complete tasks in ways different than what text and static imagery alone can provide. However, many existing agent benchmarks neglect long-context video understanding, instead focusing on text or static image inputs. To bridge this gap, we introduce VideoWebArena (VideoWA), a benchmark for evaluating the capabilities of long-context multimodal agents for video understanding. VideoWA consists of 2,021 web agent tasks based on manually crafted video tutorials, which total almost four hours of content. For our benchmark, we define a taxonomy of long-context video-based agent tasks with two main areas of focus: skill retention and factual retention. While skill retention tasks evaluate whether an agent can use a given human demonstration to complete a task efficiently, the factual retention task evaluates whether an agent can retrieve instruction-relevant information from a video to complete a task. We find that the best model achieves 13.3% success on factual retention tasks and 45.8% on factual retention QA pairs, far below human performance at 73.9% and 79.3%, respectively. On skill retention tasks, long-context models perform worse with tutorials than without, exhibiting a 5% performance decrease in WebArena tasks and a 10.3% decrease in VisualWebArena tasks. Our work highlights the need to improve the agentic abilities of long-context multimodal models and provides a testbed for future development with long-context video agents.
- Abstract(参考訳): ビデオはしばしば、テキストと静的画像だけで提供できるものとは異なる方法でタスクを完了させるために必要な情報を学び、抽出するために使用される。
しかし、多くの既存のエージェントベンチマークは、テキストや静的画像の入力に焦点をあてる代わりに、長いコンテキストのビデオ理解を無視している。
このギャップを埋めるために、ビデオ理解のための長文マルチモーダルエージェントの性能を評価するためのベンチマークであるVideoWebArena(VideoWA)を紹介する。
VideoWAは、手作業によるビデオチュートリアルに基づく2,021のWebエージェントタスクで構成されており、約4時間のコンテンツがある。
本ベンチマークでは,長文ビデオベースエージェントタスクの分類を,スキル保持と事実保持の2つの分野に焦点をあてて定義する。
スキル保持タスクは、エージェントが与えられた人間のデモンストレーションを使用してタスクを効率的に完了できるかどうかを評価する一方で、実際の保持タスクは、エージェントがビデオから命令関連情報を検索してタスクを完了できるかどうかを評価する。
このモデルでは, 実効保持作業で13.3%, 実効保持QAペアで45.8%を達成でき, それぞれ73.9%, 79.3%と極めて低い結果となった。
スキル保持タスクでは、長いコンテキストモデルはチュートリアルよりもパフォーマンスが悪く、WebArenaタスクは5%、VisualWebArenaタスクは10.3%低下している。
本研究は、長文マルチモーダルモデルのエージェント能力向上の必要性を強調し、長文ビデオエージェントによる将来の開発のためのテストベッドを提供する。
関連論文リスト
- Multimodal Language Models for Domain-Specific Procedural Video Summarization [0.0]
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。
提案手法は,料理や医療処置など特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。
以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-07T15:50:46Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - Long Story Short: a Summarize-then-Search Method for Long Video Question
Answering [23.094728230459125]
言語モデルがマルチメディアコンテンツの長大なマルチモーダル物語にゼロショット推論能力を拡張できるかどうかを検討する。
本稿では,まずビデオの物語を短いプロットに要約し,質問に関連するビデオの一部を検索する,物語ビデオQAのためのフレームワークであるLong Story Shortを提案する。
我々のモデルは最先端の教師付きモデルよりも大きなマージンで優れており、ロングビデオにおけるゼロショットQAの可能性を強調している。
論文 参考訳(メタデータ) (2023-11-02T13:36:11Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。