論文の概要: Neptune: The Long Orbit to Benchmarking Long Video Understanding
- arxiv url: http://arxiv.org/abs/2412.09582v1
- Date: Thu, 12 Dec 2024 18:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:40.707413
- Title: Neptune: The Long Orbit to Benchmarking Long Video Understanding
- Title(参考訳): Neptune:長いビデオ理解をベンチマークするための長い軌道
- Authors: Arsha Nagrani, Mingda Zhang, Ramin Mehran, Rachel Hornung, Nitesh Bharadwaj Gundavarapu, Nilpa Jha, Austin Myers, Xingyi Zhou, Boqing Gong, Cordelia Schmid, Mikhail Sirotenko, Yukun Zhu, Tobias Weyand,
- Abstract要約: 本稿では,長編ビデオの理解に挑戦する質問応答デコイ集合を生成するための半自動パイプラインについて述べる。
我々のデータセットであるNeptuneは、幅広いビデオ推論能力をカバーし、マルチモーダル推論を強調するサブセットで構成されています。
- 参考スコア(独自算出の注目度): 73.96154871970062
- License:
- Abstract: This paper describes a semi-automatic pipeline to generate challenging question-answer-decoy sets for understanding long videos. Many existing video datasets and models are focused on short clips (10s-30s). While some long video datasets do exist, they can often be solved by powerful image models applied per frame (and often to very few frames) in a video, and are usually manually annotated at high cost. In order to mitigate both these problems, we propose a scalable dataset creation pipeline which leverages large models (VLMs and LLMs), to automatically generate dense, time-aligned video captions, as well as tough question answer decoy sets for video segments (up to 15 minutes in length). Our dataset Neptune covers a broad range of long video reasoning abilities and consists of a subset that emphasizes multimodal reasoning. Since existing metrics for open-ended question answering are either rule-based or may rely on proprietary models, we provide a new open source model-based metric GEM to score open-ended responses on Neptune. Benchmark evaluations reveal that most current open-source long video models perform poorly on Neptune, particularly on questions testing temporal ordering, counting and state changes. Through Neptune, we aim to spur the development of more advanced models capable of understanding long videos. The dataset is available at https://github.com/google-deepmind/neptune
- Abstract(参考訳): 本稿では,長編ビデオの理解に挑戦する質問応答デコイ集合を生成するための半自動パイプラインについて述べる。
多くの既存のビデオデータセットとモデルはショートクリップ(10s-30s)に焦点を当てている。
長いビデオデータセットは存在するが、ビデオ内の1フレームあたりの強力な画像モデル(しばしばごく少数のフレームに適用される)によって解決され、通常は手動で高コストで注釈付けされる。
これら2つの問題を緩和するために,大規模モデル(VLM,LLM)を活用するスケーラブルなデータセット生成パイプラインを提案する。
我々のデータセットであるNeptuneは、幅広いビデオ推論能力をカバーし、マルチモーダル推論を強調するサブセットで構成されています。
オープンエンドの質問応答のための既存のメトリクスはルールベースか、プロプライエタリなモデルに依存している可能性があるため、Neptune上でオープンエンドの応答を評価するために、新しいオープンソースモデルベースのメトリクスGEMを提供する。
ベンチマーク評価によると、現在のオープンソース長ビデオモデルのほとんどは、特に時間的順序付け、カウント、状態変化をテストする質問において、Neptuneではパフォーマンスが悪くなっている。
Neptuneを通じて、長いビデオの理解が可能なより高度なモデルの開発を促進することを目指している。
データセットはhttps://github.com/google-deepmind/neptuneで公開されている。
関連論文リスト
- LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding [41.9477837230283]
LongVideoBenchは質問に答えるベンチマークで、最大1時間までビデオ言語によるインターリーブされたインプットを特徴としている。
私たちのベンチマークには、さまざまなテーマにまたがるサブタイトルを持つ3,763種類のウェブコレクトビデオが含まれています。
我々は、推論を参照する新しいビデオ質問応答タスクを定式化する。
論文 参考訳(メタデータ) (2024-07-22T16:00:55Z) - Goldfish: Vision-Language Understanding of Arbitrarily Long Videos [51.547065479762715]
任意の長さのビデオの解釈に適した手法を提案する。
また,TVQA-longベンチマークを導入し,視覚とテキストコンテンツの両方に疑問を呈する長編ビデオの理解におけるモデルの能力を評価する。
以上の結果から,本モデルでは長大・短大双方の理解が大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2024-07-17T15:59:32Z) - Hallucination Mitigation Prompts Long-term Video Understanding [36.26790392889717]
本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。
私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。
回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
論文 参考訳(メタデータ) (2024-06-17T08:44:03Z) - Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-30T06:10:10Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results
for Video Question Answering [42.173245795917026]
本稿では,ビデオ質問応答のための時空間推論モデルSTAIRを提案する。
STAIRは、与えられた質問を複数のサブタスクの階層的な組み合わせに分解するプログラムジェネレータを含むニューラルネットワークである。
我々は、STAIRのパフォーマンス、説明可能性、事前訓練されたモデルとの互換性、プログラムアノテーションが利用できない場合の適用性を示すために、いくつかのビデオ質問応答データセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-01-08T14:01:59Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。