論文の概要: T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2512.21094v1
- Date: Wed, 24 Dec 2025 10:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.75687
- Title: T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation
- Title(参考訳): T2AV-Compass:テキスト・ツー・オーディオビデオ生成のための統一評価に向けて
- Authors: Zhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang, Yuanxing Zhang, Jialu Chen, Miao Deng, Jiahao Wang, Yubin Guo, Chenxi Liao, Yize Zhang, Zhaoxiang Zhang, Jiaheng Liu,
- Abstract要約: Text-to-Audio-Video (T2AV) は、自然言語から時間的コヒーレントなビデオと意味的に同期された音声を合成することを目的としている。
本稿では,T2AVシステムの総合評価のための統合ベンチマークであるT2AV-を提案する。
最強のモデルでさえ、人間レベルのリアリズムとクロスモーダルな一貫性にかなり劣っている。
- 参考スコア(独自算出の注目度): 41.03487954415606
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-Audio-Video (T2AV) generation aims to synthesize temporally coherent video and semantically synchronized audio from natural language, yet its evaluation remains fragmented, often relying on unimodal metrics or narrowly scoped benchmarks that fail to capture cross-modal alignment, instruction following, and perceptual realism under complex prompts. To address this limitation, we present T2AV-Compass, a unified benchmark for comprehensive evaluation of T2AV systems, consisting of 500 diverse and complex prompts constructed via a taxonomy-driven pipeline to ensure semantic richness and physical plausibility. Besides, T2AV-Compass introduces a dual-level evaluation framework that integrates objective signal-level metrics for video quality, audio quality, and cross-modal alignment with a subjective MLLM-as-a-Judge protocol for instruction following and realism assessment. Extensive evaluation of 11 representative T2AVsystems reveals that even the strongest models fall substantially short of human-level realism and cross-modal consistency, with persistent failures in audio realism, fine-grained synchronization, instruction following, etc. These results indicate significant improvement room for future models and highlight the value of T2AV-Compass as a challenging and diagnostic testbed for advancing text-to-audio-video generation.
- Abstract(参考訳): Text-to-Audio-Video (T2AV) の生成は、時間的コヒーレントなビデオと、自然言語から意味的に同期された音声を合成することを目的としているが、その評価は断片的であり、多くの場合、複雑なプロンプトの下で、クロスモーダルなアライメント、命令追従、知覚的リアリズムを捉えるのに失敗するアンモダルなメトリクスや狭いスコープのベンチマークに依存している。
この制限に対処するため,T2AV-CompassはT2AVシステムの総合的な評価のための統一されたベンチマークであり,分類学駆動パイプラインによって構築された500の多様な複雑なプロンプトから構成される。
さらに、T2AV-Compassは、ビデオ品質、オーディオ品質、モーダルアライメントのための客観的信号レベルメトリクスと、命令追従およびリアリズム評価のための主観的MLLM-as-a-Judgeプロトコルを統合するデュアルレベル評価フレームワークを導入している。
11の代表的なT2AVシステムの広範囲な評価は、最強モデルでさえ、人間のレベルリアリズムや、オーディオリアリズム、きめ細かい同期、命令追従などの持続的な失敗により、実質的に不足していることを示している。
これらの結果から,T2AV-Compass はテキスト・オーディオ・ビデオ・ジェネレーションの挑戦的かつ診断的テストベッドとして,将来的なモデルに有意義な改善の余地があることが示唆された。
関連論文リスト
- Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers [24.722647001947923]
因果条件付き複数孤立トランスフォーマーと強化学習による反因果アライメントを用いた新しいLMベースのフレームワークを提案する。
その結果,Sieren は既存の LM および拡散型 T2A システムより優れており,最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-10-06T08:26:55Z) - Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。
テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。
1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文 参考訳(メタデータ) (2025-10-03T15:43:56Z) - Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing [26.317163478761916]
弱教師付き音声視覚ビデオ解析は、時間的アノテーションを使わずに、可聴性、可視性、および音声視覚イベントを検出する。
本稿では,信頼度の高いセグメントレベルのマスクを生成する指数移動平均(EMA)誘導擬似監視フレームワークを提案する。
また,クラス対応のクロスモーダル・アグリーメント(CMA)の損失も提案する。
論文 参考訳(メタデータ) (2025-09-17T15:38:05Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。