論文の概要: VABench: A Comprehensive Benchmark for Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2512.09299v1
- Date: Wed, 10 Dec 2025 03:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.389225
- Title: VABench: A Comprehensive Benchmark for Audio-Video Generation
- Title(参考訳): VABench: オーディオビデオ生成のための総合ベンチマーク
- Authors: Daili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang,
- Abstract要約: VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。
タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。
VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
- 参考スコア(独自算出の注目度): 22.00633729850902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video generation have been remarkable, enabling models to produce visually compelling videos with synchronized audio. While existing video generation benchmarks provide comprehensive metrics for visual quality, they lack convincing evaluations for audio-video generation, especially for models aiming to generate synchronized audio-video outputs. To address this gap, we introduce VABench, a comprehensive and multi-dimensional benchmark framework designed to systematically evaluate the capabilities of synchronous audio-video generation. VABench encompasses three primary task types: text-to-audio-video (T2AV), image-to-audio-video (I2AV), and stereo audio-video generation. It further establishes two major evaluation modules covering 15 dimensions. These dimensions specifically assess pairwise similarities (text-video, text-audio, video-audio), audio-video synchronization, lip-speech consistency, and carefully curated audio and video question-answering (QA) pairs, among others. Furthermore, VABench covers seven major content categories: animals, human sounds, music, environmental sounds, synchronous physical sounds, complex scenes, and virtual worlds. We provide a systematic analysis and visualization of the evaluation results, aiming to establish a new standard for assessing video generation models with synchronous audio capabilities and to promote the comprehensive advancement of the field.
- Abstract(参考訳): ビデオ生成の最近の進歩は目覚ましいもので、同期オーディオで視覚的に魅力的なビデオを生成することができる。
既存のビデオ生成ベンチマークは、視覚的品質に関する総合的な指標を提供するが、特に同期されたオーディオビデオ出力を生成することを目的としたモデルにおいて、オーディオビデオ生成に対する説得力のある評価は欠如している。
このギャップに対処するために,VABenchは,同期オーディオビデオ生成の能力を体系的に評価するための,包括的で多次元のベンチマークフレームワークである。
VABenchは、テキスト・トゥ・オーディオ・ビデオ(T2AV)、イメージ・トゥ・オーディオ・ビデオ(I2AV)、ステレオ・オーディオ・ビデオ生成の3つの主要なタスクタイプを含んでいる。
さらに、15次元をカバーする2つの主要な評価モジュールを確立する。
これらの次元は、ペアワイズ類似性(テキスト・ビデオ、テキスト・オーディオ、ビデオ・オーディオ)、オーディオ・ビデオ同期、唇・音声の一貫性、慎重にキュレートされた音声・ビデオ質問応答(QA)ペアなどを評価する。
さらにVABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
本研究では、同期音声機能を備えた映像生成モデル評価のための新しい標準を確立することを目的として、評価結果の体系的分析と可視化を行い、その分野の総合的な進歩を促進することを目的とする。
関連論文リスト
- ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs [55.82090875098132]
VideoLLaMA 2は、ビデオおよびオーディオ指向タスクにおける時空間モデリングと音声理解を強化するために設計されたビデオ大言語モデル(Video Large Language Models, Video-LLMs)のセットである。
VideoLLaMA 2は、オープンソースモデル間の競争結果を一貫して達成し、いくつかのベンチマークでいくつかのプロプライエタリなモデルに近づいた。
論文 参考訳(メタデータ) (2024-06-11T17:22:23Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。