論文の概要: VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories
- arxiv url: http://arxiv.org/abs/2604.10542v1
- Date: Sun, 12 Apr 2026 09:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.0875
- Title: VidAudio-Bench: Benchmarking V2A and VT2A Generation across Four Audio Categories
- Title(参考訳): VidAudio-Bench: 4つのオーディオカテゴリにわたるV2AとVT2A生成のベンチマーク
- Authors: Qian Zhang, Yuqin Cao, Yixuan Gao, Xiongkuo Min,
- Abstract要約: VidAudio-Benchは、4つの重要な特徴を持つV2A評価のためのマルチタスクベンチマークである。
1,634組のビデオテキストペアと、11の最先端世代モデルをベンチマークする。
主観的な研究を通じてすべての指標を検証し、人間の嗜好と強い一貫性を示す。
- 参考スコア(独自算出の注目度): 47.95995227527911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-Audio (V2A) generation is essential for immersive multimedia experiences, yet its evaluation remains underexplored. Existing benchmarks typically assess diverse audio types under a unified protocol, overlooking the fine-grained requirements of distinct audio categories. To address this gap, we propose VidAudio-Bench, a multi-task benchmark for V2A evaluation with four key features: (1) Broad Coverage: It encompasses four representative audio categories - sound effects, music, speech, and singing - under both V2A and Video-Text-to-Audio (VT2A) settings. (2) Extensive Evaluation: It comprises 1,634 video-text pairs and benchmarks 11 state-of-the-art generation models. (3) Comprehensive Metrics: It introduces 13 task-specific, reference-free metrics to systematically assess audio quality, video-audio consistency, and text-audio consistency. (4) Human Alignment: It validates all metrics through subjective studies, demonstrating strong consistency with human preferences. Experimental results reveal that current V2A models perform poorly in speech and singing compared to sound effects. Our VT2A results further highlight a fundamental tension between instruction following and visually grounded generation: stronger visual conditioning improves video-audio alignment, but often at the cost of generating the intended audio category. These findings establish VidAudio-Bench as a comprehensive and scalable framework for diagnosing V2A systems and provide new insights into multimodal audio generation.
- Abstract(参考訳): 没入型マルチメディア体験にはV2A(Video-to-Audio)生成が不可欠である。
既存のベンチマークでは、様々なオーディオタイプを統一されたプロトコルで評価し、異なるオーディオカテゴリの詳細な要件を見越すのが一般的である。
そこで本研究では,V2A と Video-Text-to-Audio (VT2A) の両設定の下で,V2A 評価のためのマルチタスクベンチマークである VidAudio-Bench を提案する。
2) 広範評価:1,634組のビデオテキストペアと11種類の最先端生成モデルをベンチマークする。
(3)包括的メトリクス: 音声品質、ビデオ・オーディオの整合性、テキスト・オーディオの整合性を体系的に評価するために、13のタスク固有の基準なしメトリクスを導入する。
(4) 人間のアライメント: 主観的な研究を通じてすべての指標を検証し、人間の嗜好と強い一貫性を示す。
実験の結果, 現在のV2Aモデルでは, 音響効果と比較して, 音声・歌唱が不十分であることが判明した。
我々のVT2Aは、より強力な視覚条件付けにより、ビデオとオーディオのアライメントが向上するが、意図したオーディオカテゴリーを生成するコストがかかる。
これらの結果から,V2Aシステムの総合的かつスケーラブルなフレームワークとしてVidAudio-Benchが確立され,マルチモーダルオーディオ生成に対する新たな洞察が得られた。
関連論文リスト
- AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation [42.157453071865056]
AVGen-Benchは、T2AV生成のためのタスク駆動ベンチマークである。
軽量スペシャリストモデルとマルチモーダル大言語モデル(MLLM)を組み合わせた多言語評価フレームワークを提案する。
評価の結果,テキストレンダリングの持続的失敗,音声のコヒーレンス,物理的推論,音声ピッチ制御の普遍的破壊など,強い視覚的美学と弱い意味的信頼性のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-02-09T14:06:03Z) - Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。
SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。
フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文 参考訳(メタデータ) (2026-01-06T05:49:41Z) - JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-14T17:23:21Z) - VABench: A Comprehensive Benchmark for Audio-Video Generation [22.00633729850902]
VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。
タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。
VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
論文 参考訳(メタデータ) (2025-12-10T03:57:29Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。