論文の概要: MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval
- arxiv url: http://arxiv.org/abs/2502.12558v4
- Date: Tue, 20 May 2025 03:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.804802
- Title: MomentSeeker: A Task-Oriented Benchmark For Long-Video Moment Retrieval
- Title(参考訳): MomentSeeker: 長時間ビデオ検索のためのタスク指向ベンチマーク
- Authors: Huaying Yuan, Jian Ni, Zheng Liu, Yueze Wang, Junjie Zhou, Zhengyang Liang, Bo Zhao, Zhao Cao, Zhicheng Dou, Ji-Rong Wen,
- Abstract要約: 長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
MomentSeekerは、長く多様なビデオに基づいて作られ、平均1200秒以上持続する。
グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトローカライゼーション、因果推論といった一般的なタスクをカバーする。
- 参考スコア(独自算出の注目度): 61.414236415351446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately locating key moments within long videos is crucial for solving long video understanding (LVU) tasks. However, existing benchmarks are either severely limited in terms of video length and task diversity, or they focus solely on the end-to-end LVU performance, making them inappropriate for evaluating whether key moments can be accurately accessed. To address this challenge, we propose MomentSeeker, a novel benchmark for long-video moment retrieval (LMVR), distinguished by the following features. First, it is created based on long and diverse videos, averaging over 1200 seconds in duration and collected from various domains, e.g., movie, anomaly, egocentric, and sports. Second, it covers a variety of real-world scenarios in three levels: global-level, event-level, object-level, covering common tasks like action recognition, object localization, and causal reasoning, etc. Third, it incorporates rich forms of queries, including text-only queries, image-conditioned queries, and video-conditioned queries. On top of MomentSeeker, we conduct comprehensive experiments for both generation-based approaches (directly using MLLMs) and retrieval-based approaches (leveraging video retrievers). Our results reveal the significant challenges in long-video moment retrieval in terms of accuracy and efficiency, despite improvements from the latest long-video MLLMs and task-specific fine-tuning. We have publicly released MomentSeeker(https://yhy-2000.github.io/MomentSeeker/) to facilitate future research in this area.
- Abstract(参考訳): 長時間ビデオ理解(LVU)タスクの解決には,キーモーメントの正確な位置決めが不可欠だ。
しかし、既存のベンチマークは、ビデオの長さとタスクの多様性の面で著しく制限されているか、あるいは、エンドツーエンドのLVUパフォーマンスのみに焦点を当てているため、キーモーメントが正確にアクセス可能であるかどうかを評価するのに不適切である。
この課題に対処するために、以下に示す特徴によって区別される長ビデオモーメント検索(LMVR)のための新しいベンチマークであるMomentSeekerを提案する。
まず、長く多様なビデオに基づいて作成され、平均1200秒以上の時間で作成され、例えば、映画、異常、エゴセントリック、スポーツなど様々な領域から収集される。
第二に、グローバルレベル、イベントレベル、オブジェクトレベル、アクション認識、オブジェクトのローカライゼーション、因果推論といった一般的なタスクをカバーする。
第三に、テキストのみのクエリ、画像条件のクエリ、ビデオ条件のクエリなど、リッチな形式のクエリが組み込まれている。
MomentSeeker上では,世代ベースアプローチ(MLLMを直接使用)と検索ベースアプローチ(ビデオレトリバーを平均化する)の両方に対して,包括的な実験を行う。
その結果、最新の長ビデオMLLMとタスク固有の微調整の改善にもかかわらず、精度と効率の観点から、長ビデオモーメント検索における重要な課題を明らかにした。
この分野での今後の研究を促進するため、MomentSeeker(https://yhy-2000.github.io/MomentSeeker/)を公開しました。
関連論文リスト
- Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering [36.94781787191615]
能動モーメント探索(AMDNet)を用いた簡易かつ効果的な手法を提案する。
私たちは、彼らのクエリとセマンティックに一致したビデオモーメントを見つけることを約束しています。
2つの大規模なビデオデータセットの実験は、AMDNetの優位性と効率性を示している。
論文 参考訳(メタデータ) (2025-04-15T07:00:18Z) - H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文 参考訳(メタデータ) (2025-03-31T12:32:51Z) - FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs [8.18451834099348]
我々の新しいビデオエージェントFALCONEyeは、VLMとLarge Language Model(LLM)を組み合わせて、ビデオ上の関連情報を検索し、そのフレームを答えとともに見つけ出す。
実験の結果,FALCONEye は FALCON-Bench の最先端技術よりも優れた性能を示し,関連するベンチマークでは類似あるいは良好な性能を示した。
論文 参考訳(メタデータ) (2025-03-25T17:17:19Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - SCBench: A Sports Commentary Benchmark for Video LLMs [19.13963551534595]
我々は,ビデオ大言語モデル(ビデオLLM)のためのスポーツビデオ解説生成のためのベンチマークを開発する。
$textbfSCBench$はタスク用に特別に設計された6次元計量であり、GPTに基づく評価手法を提案する。
結果,InternVL-Chat-2は5.44で最高の性能を示し,1.04で2位となった。
論文 参考訳(メタデータ) (2024-12-23T15:13:56Z) - The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval [36.516226519328015]
ビデオ言語タスクは空間的・時間的理解を必要とし、かなりの計算を必要とする。
本研究は,画像テキスト事前学習MLLMをモーメント検索に活用することの驚くべき有効性を示す。
我々は、Charades-STA、QVHighlights、ActivityNet Captionsといった広く使われているベンチマーク上で、新しい最先端のモーメント検索を実現する。
論文 参考訳(メタデータ) (2024-06-26T06:59:09Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - MVMR: A New Framework for Evaluating Faithfulness of Video Moment Retrieval against Multiple Distractors [24.858928681280634]
本稿では,MVMR(Massive Videos Moment Retrieval for Faithfulness Evaluation)タスクを提案する。
それは、VMRモデルの忠実さを評価するために、複数のイントラクタを含む巨大なビデオセット内でビデオモーメントを検索することを目的としている。
そこで本研究では, 自動大容量ビデオプール構築フレームワークの提案を行い, 負(ディトラクタ)と正(偽)の動画セットを分類する。
論文 参考訳(メタデータ) (2023-08-15T17:38:55Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。