論文の概要: HourVideo: 1-Hour Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2411.04998v1
- Date: Thu, 07 Nov 2024 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:18.056886
- Title: HourVideo: 1-Hour Video-Language Understanding
- Title(参考訳): HourVideo:1時間のビデオランゲージ理解
- Authors: Keshigeyan Chandrasegaran, Agrim Gupta, Lea M. Hadzic, Taran Kota, Jimming He, Cristóbal Eyzaguirre, Zane Durante, Manling Li, Jiajun Wu, Li Fei-Fei,
- Abstract要約: HourVideoは、時間単位のビデオ言語理解のためのベンチマークデータセットである。
HourVideoには、20分から120分の間、手動で編集されたエゴセントリックなビデオが500本含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
- 参考スコア(独自算出の注目度): 34.90495038962066
- License:
- Abstract: We present HourVideo, a benchmark dataset for hour-long video-language understanding. Our dataset consists of a novel task suite comprising summarization, perception (recall, tracking), visual reasoning (spatial, temporal, predictive, causal, counterfactual), and navigation (room-to-room, object retrieval) tasks. HourVideo includes 500 manually curated egocentric videos from the Ego4D dataset, spanning durations of 20 to 120 minutes, and features 12,976 high-quality, five-way multiple-choice questions. Benchmarking results reveal that multimodal models, including GPT-4 and LLaVA-NeXT, achieve marginal improvements over random chance. In stark contrast, human experts significantly outperform the state-of-the-art long-context multimodal model, Gemini Pro 1.5 (85.0% vs. 37.3%), highlighting a substantial gap in multimodal capabilities. Our benchmark, evaluation toolkit, prompts, and documentation are available at https://hourvideo.stanford.edu
- Abstract(参考訳): 時間単位のビデオ言語理解のためのベンチマークデータセットであるHourVideoを提示する。
我々のデータセットは、要約、認識(リコール、トラッキング)、視覚的推論(空間的、時間的、予測的、因果的、偽物的)、ナビゲーション(部屋間、オブジェクト検索)からなる新しいタスクスイートで構成されている。
HourVideoには、Ego4Dデータセットから手動でキュレートされたエゴセントリックビデオ500本、20分から120分、高品質で5方向の複数の質問12,976本が含まれている。
ベンチマークの結果、GPT-4やLLaVA-NeXTを含むマルチモーダルモデルでは、ランダムな確率よりも限界的な改善が得られた。
対照的に、人間の専門家は最先端の長文マルチモーダルモデルであるGemini Pro 1.5(85.0%対37.3%)を著しく上回り、マルチモーダル能力のかなりのギャップを浮き彫りにした。
私たちのベンチマーク、評価ツールキット、プロンプト、ドキュメントはhttps://hour video.stanford.eduで公開されています。
関連論文リスト
- Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - VideoVista: A Versatile Benchmark for Video Understanding and Reasoning [46.838692817107116]
さまざまなコンテンツカテゴリ、期間、能力の課題を統合するビデオQAベンチマークであるVideoVistaを紹介します。
VideoVistaは、14のカテゴリー(例えば、ハウト、フィルム、エンターテイメント)にまたがる3,400本のビデオから、25,000の質問で構成されており、期間は数秒から10分以上である。
19種類の理解タスク(例:異常検出、相互作用理解)と8つの推論タスク(例:論理推論、因果推論)を含んでいる。
論文 参考訳(メタデータ) (2024-06-17T08:09:00Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。