論文の概要: Video-Oasis: Rethinking Evaluation of Video Understanding
- arxiv url: http://arxiv.org/abs/2603.29616v1
- Date: Tue, 31 Mar 2026 11:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.578212
- Title: Video-Oasis: Rethinking Evaluation of Video Understanding
- Title(参考訳): Video-Oasis:ビデオ理解の評価を再考する
- Authors: Geuntaek Lim, Minho Shim, Sungjune Park, Jaeyun Lee, Inwoong Lee, Taeoh Kim, Dongyoon Wee, Yukyung Choi,
- Abstract要約: ビデオ理解は、パフォーマンス向上が視覚的知覚、言語的推論、あるいは知識事前に起因するかどうかを判断するのは難しい。
ビデオ理解のための既存の評価と蒸留時間課題を評価するための診断スイートである Video-Oasis を提供する。
分析の結果,(1)既存のベンチマークサンプルの54%は視覚的入力や時間的文脈を使わずに解決可能であること,(2)残りのサンプルでは,最先端のモデルではランダムな推測以上の性能を示すことが判明した。
- 参考スコア(独自算出の注目度): 20.076100437038313
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The inherent complexity of video understanding makes it difficult to attribute whether performance gains stem from visual perception, linguistic reasoning, or knowledge priors. While many benchmarks have emerged to assess high-level reasoning, the essential criteria that constitute video understanding remain largely overlooked. Instead of introducing yet another benchmark, we take a step back to re-examine the current landscape of video understanding. In this work, we provide Video-Oasis, a sustainable diagnostic suite designed to systematically evaluate existing evaluations and distill spatio-temporal challenges for video understanding. Our analysis reveals two critical findings: (1) 54% of existing benchmark samples are solvable without visual input or temporal context, and (2) on the remaining samples, state-of-the-art models exhibit performance barely exceeding random guessing. To bridge this gap, we investigate which algorithmic design choices contribute to robust video understanding, providing practical guidelines for future research. We hope our work serves as a standard guideline for benchmark construction and the rigorous evaluation of architecture development. Code is available at https://github.com/sejong-rcv/Video-Oasis.
- Abstract(参考訳): ビデオ理解の本質的な複雑さは、パフォーマンスの獲得が視覚的知覚、言語的推論、あるいは知識の先行に由来するかどうかを判断するのを困難にしている。
ハイレベルな推論を評価するために多くのベンチマークが登場したが、ビデオ理解を構成する重要な基準はほとんど見過ごされ続けている。
新たなベンチマークを導入する代わりに、ビデオ理解の現在の状況を再検討する。
本研究では,既存の評価を体系的に評価し,ビデオ理解のための時空間的課題を抽出する,持続可能な診断スイートであるVideo-Oasisを提供する。
分析の結果,(1)既存のベンチマークサンプルの54%は視覚的入力や時間的文脈を使わずに解決可能であること,(2)残りのサンプルでは,最先端のモデルではランダムな推測以上の性能を示すことが判明した。
このギャップを埋めるために,ロバストな映像理解にどのようなアルゴリズム設計が寄与するかを考察し,今後の研究の実践的ガイドラインを提供する。
私たちの仕事は、ベンチマークの構築とアーキテクチャ開発の厳格な評価のための標準ガイドラインとして機能することを願っています。
コードはhttps://github.com/sejong-rcv/Video-Oasisで公開されている。
関連論文リスト
- VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought [19.792159494513424]
ビデオ理解は、ビデオ分析からインタラクティブシステムまで、様々な用途に不可欠である。
視覚言語モデルの発展にもかかわらず、これらのモデルはしばしば、微妙で時間的な詳細を捉えるのに苦労する。
これを解決するために、ビデオ理解を強化するために設計された画期的なデータセットであるVideo-Thoughtを紹介した。
論文 参考訳(メタデータ) (2025-06-10T14:08:56Z) - H2VU-Benchmark: A Comprehensive Benchmark for Hierarchical Holistic Video Understanding [25.111988967973147]
既存のビデオ理解評価ベンチマークでは、カバレッジ、タスクの多様性、シーン適応性に大きな制限がある。
本稿では,一般的なビデオとオンラインストリーミングの両方の理解度を評価するために,階層的・全体論的ビデオ理解ベンチマークを提案する。
このベンチマークは、拡張ビデオの長さ、包括的なアセスメントタスク、エンリッチ化ビデオデータという3つの重要な特徴に寄与する。
論文 参考訳(メタデータ) (2025-03-31T12:32:51Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。