論文の概要: AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2604.08540v1
- Date: Thu, 09 Apr 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.077149
- Title: AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation
- Title(参考訳): AVGen-Bench: テキスト・ツー・オーディオビデオ生成のマルチグラニュラ評価のためのタスク駆動ベンチマーク
- Authors: Ziwei Zhou, Zeyuan Lai, Rui Wang, Yifan Yang, Zhen Xing, Yuqing Yang, Qi Dai, Lili Qiu, Chong Luo,
- Abstract要約: AVGen-Benchは、T2AV生成のためのタスク駆動ベンチマークである。
軽量スペシャリストモデルとマルチモーダル大言語モデル(MLLM)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 42.157453071865056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Audio-Video (T2AV) generation is rapidly becoming a core interface for media creation, yet its evaluation remains fragmented. Existing benchmarks largely assess audio and video in isolation or rely on coarse embedding similarity, failing to capture the fine-grained joint correctness required by realistic prompts. We introduce AVGen-Bench, a task-driven benchmark for T2AV generation featuring high-quality prompts across 11 real-world categories. To support comprehensive assessment, we propose a multi-granular evaluation framework that combines lightweight specialist models with Multimodal Large Language Models (MLLMs), enabling evaluation from perceptual quality to fine-grained semantic controllability. Our evaluation reveals a pronounced gap between strong audio-visual aesthetics and weak semantic reliability, including persistent failures in text rendering, speech coherence, physical reasoning, and a universal breakdown in musical pitch control. Code and benchmark resources are available at http://aka.ms/avgenbench.
- Abstract(参考訳): テキスト・ツー・オーディオ・ビデオ(T2AV)生成は急速にメディア作成のコアインターフェースになりつつあるが、その評価は断片化されている。
既存のベンチマークでは、オーディオとビデオを独立して評価するか、あるいは粗い埋め込み類似性に依存しており、現実的なプロンプトで必要とされるきめ細かい関節の正確さを捉えていない。
我々は,T2AV生成のためのタスク駆動ベンチマークであるAVGen-Benchを紹介した。
包括的評価を支援するために,軽量スペシャリストモデルとMLLM(Multimodal Large Language Models)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
コードとベンチマークのリソースはhttp://aka.ms/avgenbench.comで入手できる。
関連論文リスト
- Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:49:41Z) - T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation [41.03487954415606]
Text-to-Audio-Video (T2AV) は、自然言語から時間的コヒーレントなビデオと意味的に同期された音声を合成することを目的としている。
本稿では,T2AVシステムの総合評価のための統合ベンチマークであるT2AV-を提案する。
最強のモデルでさえ、人間レベルのリアリズムとクロスモーダルな一貫性にかなり劣っている。
論文 参考訳(メタデータ) (2025-12-24T10:30:35Z) - AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs [13.950397580491666]
AVFakeBenchは,初の包括的オーディオビデオ偽造検出ベンチマークである。
AVFakeBenchには、慎重に12Kのオーディオビデオ質問が含まれており、7種類の偽造と4レベルのアノテーションを含んでいる。
AVFakeBench上での11の音声映像大言語モデル(AV-LMM)と2つの一般的な検出手法を評価する。
論文 参考訳(メタデータ) (2025-11-26T10:33:12Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。