論文の概要: MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2605.20183v1
- Date: Tue, 19 May 2026 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.581461
- Title: MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation
- Title(参考訳): MSAVBench:マルチショットオーディオ映像の総合的・信頼性評価に向けて
- Authors: Yujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, Xiang Wang, Zhen Xing, Ruihang Chu, Lingyi Hong, Yefei He, Junjie Zhou, Junqiu Yu, Yang Shi, Difan Zou, Kai Zhu, Shiwei Zhang, Yingya Zhang, Yu Liu, Xihui Liu, Hongming Shan,
- Abstract要約: マルチショットオーディオビデオ生成のための,初の総合的なベンチマークと適応型ハイブリッド評価フレームワークであるMSAVBenchを紹介する。
私たちのベンチマークでは、ビデオ、オーディオ、ショット、参照の4つの重要な領域にまたがっており、多様なタスク設定、最大15のショット数、非現実的なシナリオに挑戦しています。
MSAVBenchは人間の判断と高度に一致し、スピアマンのランク相関は91.5%に達する。
- 参考スコア(独自算出の注目度): 88.7702943548674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation is rapidly evolving from single-shot synthesis to complex multi-shot audio-video (MSAV) narratives to meet real-world demands. However, evaluating such frontier models remains a fundamental challenge. Existing benchmarks are limited in scope and data diversity, and rely on rigid evaluation pipelines, preventing systematic and reliable assessment of modern MSAV models. To bridge these gaps, we introduce MSAVBench, the first comprehensive benchmark and adaptive hybrid evaluation framework for multi-shot audio-video generation. Our benchmark spans four key dimensions, video, audio, shot, and reference, covering diverse task settings, varying shot counts of up to 15, and challenging non-realistic scenarios. Our evaluation framework improves robustness through an adaptive self-correction mechanism for shot segmentation, instance-wise rubrics for subjective metrics, and tool-grounded evidence extraction for complex judgments. Furthermore, MSAVBench achieves high alignment with human judgments, reaching a Spearman rank correlation of 91.5%. Our systematic evaluation of 19 state-of-the-art closed- and open-source models shows that current systems still struggle with director-level control and fine-grained audio-visual synchronization, while modular or agentic generation pipelines offer a promising path toward narrowing the gap between open- and closed-source models. We will release the benchmark data and evaluation code to facilitate future research.
- Abstract(参考訳): ビデオ生成は、シングルショット合成から複雑なマルチショットオーディオビデオ(MSAV)物語へと急速に進化し、現実の要求に応えている。
しかし、このようなフロンティアモデルの評価は依然として根本的な課題である。
既存のベンチマークはスコープとデータの多様性に制限があり、厳格な評価パイプラインに依存しており、現代のMSAVモデルの体系的かつ信頼性の高い評価を妨げている。
このギャップを埋めるために,マルチショットオーディオビデオ生成のためのベンチマークおよび適応型ハイブリッド評価フレームワークであるMSAVBenchを紹介する。
私たちのベンチマークでは、ビデオ、オーディオ、ショット、参照の4つの重要な領域にまたがっており、多様なタスク設定、最大15のショット数、非現実的なシナリオに挑戦しています。
評価フレームワークは,ショットセグメンテーションの適応的自己補正機構,主観的尺度のインスタンスワイドルーブリック,複雑な判断のためのツールグラウンドドエビデンス抽出により,ロバスト性を向上させる。
さらに、MSAVBenchは人間の判断と高度に一致し、スピアマンのランク相関は91.5%に達する。
現状の19種類のクローズド・アンド・オープンソース・モデルの体系的評価から,現状のシステムは依然としてディレクタレベルの制御と微粒なオーディオ・ビジュアル同期に苦しむ一方で,モジュールあるいはエージェント・ジェネレーション・パイプラインは,オープン・ソース・モデルとクローズド・ソース・モデルのギャップを狭めるための有望な道を提供する。
今後の研究を促進するため、ベンチマークデータと評価コードをリリースする。
関連論文リスト
- AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation [42.157453071865056]
AVGen-Benchは、T2AV生成のためのタスク駆動ベンチマークである。
軽量スペシャリストモデルとマルチモーダル大言語モデル(MLLM)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:26:34Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs [13.950397580491666]
AVFakeBenchは,初の包括的オーディオビデオ偽造検出ベンチマークである。
AVFakeBenchには、慎重に12Kのオーディオビデオ質問が含まれており、7種類の偽造と4レベルのアノテーションを含んでいる。
AVFakeBench上での11の音声映像大言語モデル(AV-LMM)と2つの一般的な検出手法を評価する。
論文 参考訳(メタデータ) (2025-11-26T10:33:12Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。