論文の概要: HAVEN: Hierarchically Aligned Multimodal Benchmark for Unified Video Understanding
- arxiv url: http://arxiv.org/abs/2605.19223v1
- Date: Tue, 19 May 2026 00:48:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.046673
- Title: HAVEN: Hierarchically Aligned Multimodal Benchmark for Unified Video Understanding
- Title(参考訳): HAVEN: 一貫したビデオ理解のための階層的なマルチモーダルベンチマーク
- Authors: Mengqi Shi, Haopeng Zhang,
- Abstract要約: HAVENは階層的に整列したマルチモーダル・ベンチマークである。
この統一アノテーションパラダイムに基づいて,要約,時間的推論,マルチモーダルグラウンド,サリエンシランキングにまたがる総合評価スイートを提案する。
- 参考スコア(独自算出の注目度): 1.8482679687103294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) exhibit strong performance on standard video tasks, their ability to faithfully summarize and reason over complex narratives remains poorly evaluated. Existing summarization benchmarks fragment supervision across isolated granularities, such as keyframes, key shots, or disjointed text summaries, failing to capture the inherently hierarchical structure of cross-modal alignment. To address this critical gap, we introduce HAVEN, a hierarchically aligned multimodal benchmark for unified video understanding. HAVEN pioneers a fully granular (frame, shot, and video levels) and fully multimodal (video and text) dataset architecture, complete with explicit, continuous alignment between modalities. Built upon this unified annotation paradigm, we propose a comprehensive evaluation suite spanning summarization, temporal reasoning, multimodal grounding, and saliency ranking. Extensive benchmarking of state-of-the-art MLLMs exposes a persistent gap between surface-level textual fluency and grounded multimodal understanding. Ultimately, HAVEN advances the evaluation of multimodal systems beyond traditional QA formats, offering a rigorous, standardized testbed to drive future research in interpretable, hierarchical video understanding. We publicly release the dataset, benchmark suite, and evaluation protocols.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、標準的なビデオタスクにおいて高いパフォーマンスを示すが、複雑な物語を忠実に要約し、推論する能力は、まだ不十分である。
既存の要約ベンチマークでは、キーフレームやキーショット、結合しないテキストの要約など、孤立した粒度の断片的な監督が行なわれており、本質的に階層構造であるクロスモーダルアライメントのキャプチャに失敗している。
この重要なギャップに対処するために、階層的に整列したマルチモーダル・ベンチマークであるHAVENを導入する。
HAVENは、完全な粒度(フレーム、ショット、ビデオレベル)と完全なマルチモーダル(ビデオとテキスト)データセットアーキテクチャを開拓し、モダリティ間の明示的で連続的なアライメントを完備している。
この統一アノテーションパラダイムに基づいて,要約,時間的推論,マルチモーダルグラウンド,サリエンシランキングにまたがる総合評価スイートを提案する。
最先端MLLMの広範囲なベンチマークは、表面レベルのテキストの流速と接地されたマルチモーダル理解の間に永続的なギャップを露呈する。
最終的に、HAVENは従来のQAフォーマットを超えてマルチモーダルシステムの評価を進め、厳格で標準化されたテストベッドを提供し、解釈可能で階層的なビデオ理解における将来の研究を促進する。
データセット、ベンチマークスイート、評価プロトコルを公開しています。
関連論文リスト
- Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [98.3098451637867]
Video-MME-v2は、ビデオ理解の堅牢性と忠実さを厳格に評価するために設計された総合的なベンチマークである。
データ品質を保証するため、Video-MME-v2は厳格に制御された人間のアノテーションパイプラインを通して構築される。
論文 参考訳(メタデータ) (2026-04-06T17:59:56Z) - Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。
製品ドメインは、上着と下着、宝石、靴、家具の5つ。
MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文 参考訳(メタデータ) (2026-03-01T12:53:47Z) - FysicsWorld: A Unified Full-Modality Benchmark for Any-to-Any Understanding, Generation, and Reasoning [52.88164697048371]
FysicsWorldは、画像、ビデオ、オーディオ、テキスト間の双方向入力出力をサポートする最初の統一されたフルモダリティベンチマークである。
FysicsWorldには16の主要なタスクと3,268のキュレートされたサンプルが含まれており、40以上の高品質なソースから集約されている。
論文 参考訳(メタデータ) (2025-12-14T16:41:29Z) - Zero-shot Multimodal Document Retrieval via Cross-modal Question Generation [47.714317480436215]
PreMIRはMLLMの幅広い知識を活用して、検索前にクロスモーダルな事前質問(preQ)を生成するシンプルなフレームワークである。
実験により、PreMIRは、クローズドドメインやマルチリンガル設定など、分散ベンチマークから得られるアートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2025-08-23T16:14:41Z) - Team of One: Cracking Complex Video QA with Model Synergy [24.75732964829523]
本稿では,複雑な実世界のシナリオにおける推論深度と堅牢性を高める,オープンエンドなビデオ質問応答のための新しいフレームワークを提案する。
既存のビデオラージマルチモーダルモデル (Video-LMM) では、文脈的理解の制限、時間的モデリングの弱さ、曖昧さや構成的クエリへの一般化の低さがしばしば見られる。
論文 参考訳(メタデータ) (2025-07-18T11:12:44Z) - UBiSS: A Unified Framework for Bimodal Semantic Summarization of Videos [52.161513027831646]
Bimodal Semantic Summarization of Videos (BiSSV) という,より包括的なビデオ要約タスクに着目する。
BiSSVタスクのための統一フレームワーク UBiSS を提案し、ビデオ内のサリエンシ情報をモデル化し、TM-summary と VM-summary を同時に生成する。
実験により、我々の統合されたフレームワークは、多段階の要約パイプラインよりも優れたパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2024-06-24T03:55:25Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。