論文の概要: Neptune: The Long Orbit to Benchmarking Long Video Understanding
- arxiv url: http://arxiv.org/abs/2412.09582v2
- Date: Sat, 18 Jan 2025 00:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:18:34.254386
- Title: Neptune: The Long Orbit to Benchmarking Long Video Understanding
- Title(参考訳): Neptune:長いビデオ理解をベンチマークするための長い軌道
- Authors: Arsha Nagrani, Mingda Zhang, Ramin Mehran, Rachel Hornung, Nitesh Bharadwaj Gundavarapu, Nilpa Jha, Austin Myers, Xingyi Zhou, Boqing Gong, Cordelia Schmid, Mikhail Sirotenko, Yukun Zhu, Tobias Weyand,
- Abstract要約: 長いビデオ理解のためのベンチマークであるNeptuneを紹介します。
我々のデータセットは、幅広いビデオ推論能力をカバーしており、マルチモーダル推論を強調するサブセットで構成されています。
ベンチマーク評価によると、現在のオープンソース長ビデオモデルのほとんどは、Neptuneではパフォーマンスが悪くなっている。
- 参考スコア(独自算出の注目度): 73.96154871970062
- License:
- Abstract: We introduce Neptune, a benchmark for long video understanding that requires reasoning over long time horizons and across different modalities. Many existing video datasets and models are focused on short clips (10s-30s). While some long video datasets do exist, they can often be solved by powerful image models applied per frame (and often to very few frames) in a video, and are usually manually annotated at high cost. In order to mitigate both these problems, we propose a scalable dataset creation pipeline which leverages large models (VLMs and LLMs), to automatically generate dense, time-aligned video captions, as well as tough question answer decoy sets for video segments (up to 15 minutes in length). Our dataset Neptune covers a broad range of long video reasoning abilities and consists of a subset that emphasizes multimodal reasoning. Since existing metrics for open-ended question answering are either rule-based or may rely on proprietary models, we provide a new open source model-based metric GEM to score open-ended responses on Neptune. Benchmark evaluations reveal that most current open-source long video models perform poorly on Neptune, particularly on questions testing temporal ordering, counting and state changes. Through Neptune, we aim to spur the development of more advanced models capable of understanding long videos. The dataset is available at https://github.com/google-deepmind/neptune
- Abstract(参考訳): 長いビデオ理解のためのベンチマークであるNeptuneを紹介します。
多くの既存のビデオデータセットとモデルはショートクリップ(10s-30s)に焦点を当てている。
長いビデオデータセットは存在するが、ビデオ内の1フレームあたりの強力な画像モデル(しばしばごく少数のフレームに適用される)によって解決され、通常は手動で高コストで注釈付けされる。
これら2つの問題を緩和するために,大規模モデル(VLM,LLM)を活用するスケーラブルなデータセット生成パイプラインを提案する。
我々のデータセットであるNeptuneは、幅広いビデオ推論能力をカバーし、マルチモーダル推論を強調するサブセットで構成されています。
オープンエンドの質問応答のための既存のメトリクスはルールベースか、プロプライエタリなモデルに依存している可能性があるため、Neptune上でオープンエンドの応答を評価するために、新しいオープンソースモデルベースのメトリクスGEMを提供する。
ベンチマーク評価によると、現在のオープンソース長ビデオモデルのほとんどは、特に時間的順序付け、カウント、状態変化をテストする質問において、Neptuneではパフォーマンスが悪くなっている。
Neptuneを通じて、長いビデオの理解が可能なより高度なモデルの開発を促進することを目指している。
データセットはhttps://github.com/google-deepmind/neptuneで公開されている。
関連論文リスト
- CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。
14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。
このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文 参考訳(メタデータ) (2024-12-16T18:46:45Z) - Owl-1: Omni World Model for Consistent Long Video Generation [75.51378346789626]
Omni World ModeL (Owl-1) を提案する。
Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:01Z) - LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Hallucination Mitigation Prompts Long-term Video Understanding [36.26790392889717]
本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。
私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。
回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
論文 参考訳(メタデータ) (2024-06-17T08:44:03Z) - LVBench: An Extreme Long Video Understanding Benchmark [38.839913137854104]
LVBenchは長いビデオの理解に特化して設計されたベンチマークである。
我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。
論文 参考訳(メタデータ) (2024-06-12T09:36:52Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。