論文の概要: MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2605.28035v1
- Date: Wed, 27 May 2026 06:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.8091
- Title: MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation
- Title(参考訳): MTAVG-Bench 2.0:マルチ話者音声映像生成における映像表現の故障モードの診断
- Authors: Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng, Xu Liu, Dian Jin, Jiajun Xu, Jingyun Liao, Tian Lan, Ziqin Zhou, Yueying Liu, Yu Bai, Changsen Yuan, Jinxing Zhou, Xian-Ling Mao, Xuefeng Chen, Yousheng Feng,
- Abstract要約: MTAVG-Bench 2.0は,マルチトーカーオーディオビデオ生成における映像表現の異常モードの診断のためのベンチマークである。
MTAVG-Bench 2.0はショートドラマとシーンレベルの生成をターゲットとし、演技、物語、雰囲気、音声視覚言語にまたがる高いレベルの障害分類を確立している。
実験により、ジェミニのような商業オムニモデルが他の評価モデルよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 56.428467142804756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Multi-Talker Audio-Video Generation (MTAVG) models have shown promising performance on fundamental metrics such as lip-sync and audio-visual alignment. However, these metrics remain insufficient for assessing cinematic expressiveness in scene-level generation. In multi-character scenes, generation models must go beyond audio-visual realism to convey coherent character performance and other higher-level cinematic qualities. To fill this gap, we introduce MTAVG-Bench 2.0, a benchmark for diagnosing failure modes of cinematic expressiveness in multi-talker audio-video generation. Unlike prior settings that mainly focus on the quality of basic multi-turn dialogue, MTAVG-Bench 2.0 targets short-drama and scene-level generation, and establishes a high-level failure taxonomy spanning acting, narrative, atmosphere, and audio-visual language. Based on this taxonomy, we construct more than 10,000 question-answering evaluation instances, together with subsets for short-drama-level assessment and temporal localization of failure modes, to systematically evaluate the ability of omni large language models to diagnose high-level audio-visual failures. Experimental results show that commercial omni models such as Gemini substantially outperform other evaluators, yet even the strongest models continue to struggle with complex failures in our benchmark. These results demonstrate that MTAVG-Bench 2.0 provides a systematic benchmark for failure diagnosis in cinematic multi-talker audio-video generation.
- Abstract(参考訳): 近年,マルチ話者音声映像生成(MTAVG)モデルでは,リップシンクやオーディオ視覚アライメントといった基本的な指標に対して有望な性能が示されている。
しかし、これらの指標はシーンレベルの世代における映像表現性を評価するには不十分である。
マルチキャラクタシーンでは、生成モデルは、コヒーレントなキャラクタパフォーマンスやその他の高レベルの映画品質を伝えるために、オーディオ視覚リアリズムを超える必要がある。
このギャップを埋めるために,マルチトーカーオーディオビデオ生成における映像表現の故障モードの診断のためのベンチマークMTAVG-Bench 2.0を導入する。
MTAVG-Bench 2.0は、基本的なマルチターン対話の質に主にフォーカスする以前の設定とは異なり、ショートドラマとシーンレベルの生成をターゲットとし、演技、物語、雰囲気、オーディオ視覚言語にまたがるハイレベルな障害分類を確立している。
この分類に基づいて、我々は1万以上の質問応答評価インスタンスと、短時間のドラマレベルの評価と障害モードの時間的局所化のためのサブセットを構築し、ハイレベルな音声視覚障害を診断するオムニ大言語モデルの有効性を体系的に評価する。
実験結果から,Geminiなどの商業オムニモデルは,他の評価モデルよりも大幅に優れていた。
これらの結果から,MTAVG-Bench 2.0は,撮影用マルチトーカーオーディオビデオ生成における故障診断の体系的ベンチマークを提供することが示された。
関連論文リスト
- MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation [88.7702943548674]
マルチショットオーディオビデオ生成のための,初の総合的なベンチマークと適応型ハイブリッド評価フレームワークであるMSAVBenchを紹介する。
私たちのベンチマークでは、ビデオ、オーディオ、ショット、参照の4つの重要な領域にまたがっており、多様なタスク設定、最大15のショット数、非現実的なシナリオに挑戦しています。
MSAVBenchは人間の判断と高度に一致し、スピアマンのランク相関は91.5%に達する。
論文 参考訳(メタデータ) (2026-05-19T17:59:33Z) - Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling [59.97930201616015]
本研究では,共有バックボーン内で高レベルなクロスモーダルモデリングを行う自己回帰拡散フレームワークであるTalker-T2AVを提案する。
共有自己回帰言語モデルは、統一されたパッチレベルのトークン空間において、オーディオとビデオに対して共同で原因となる。
ポートレートベンチマークの実験では、Talker-T2AVはリップシンク精度、ビデオ品質、オーディオ品質において、デュアルブランチベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-26T07:48:47Z) - AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation [42.157453071865056]
AVGen-Benchは、T2AV生成のためのタスク駆動ベンチマークである。
軽量スペシャリストモデルとマルチモーダル大言語モデル(MLLM)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:26:34Z) - PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation [63.3417467957431]
テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、現実的なオーディオ・ビジュアルコンテンツを要求する幅広いアプリケーションを支える。
我々は,既存のT2AVモデルの音波物理接地能力を評価するために設計された,難易度の高い音波物理感度ベンチマークであるPhyAVBenchを紹介する。
主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは、音生成の基礎となる物理的メカニズムに対するモデルの理解を明確に評価している。
論文 参考訳(メタデータ) (2025-12-30T05:22:31Z) - T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation [41.03487954415606]
Text-to-Audio-Video (T2AV) は、自然言語から時間的コヒーレントなビデオと意味的に同期された音声を合成することを目的としている。
本稿では,T2AVシステムの総合評価のための統合ベンチマークであるT2AV-を提案する。
最強のモデルでさえ、人間レベルのリアリズムとクロスモーダルな一貫性にかなり劣っている。
論文 参考訳(メタデータ) (2025-12-24T10:30:35Z) - See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models [24.851643680674474]
AV-SpeakerBenchは、現実世界のビデオにおける話者中心のオーディオヴィジュアル推論に焦点を当てた、3,212のマルチチョイス質問のベンチマークである。
その特徴は,(1)話者中心の場面を中心的推論単位として扱う話者中心の定式化,(2)音声の視覚的依存を質問意味論に組み込む融合型質問設計,(3)時間的精度と横断的妥当性を保証する専門家計算アノテーションである。
論文 参考訳(メタデータ) (2025-12-01T21:57:26Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。