論文の概要: PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2512.23994v1
- Date: Tue, 30 Dec 2025 05:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.288223
- Title: PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation
- Title(参考訳): PhyAVBench: 物理的に接地したテキスト対オーディオビデオ生成のための音声物理感度ベンチマーク
- Authors: Tianxin Xie, Wentao Lei, Guanjie Huang, Pengfei Zhang, Kai Jiang, Chunhui Zhang, Fengji Ma, Haoyu He, Han Zhang, Jiangshan He, Jinting Wang, Linghan Fang, Lufei Gao, Orkesh Ablet, Peihua Zhang, Ruolin Hu, Shengyu Li, Weilin Lin, Xiaoyang Feng, Xinyue Yang, Yan Rong, Yanyun Wang, Zihang Shao, Zelin Zhao, Chenxing Li, Shan Yang, Wenfu Wang, Meng Yu, Dong Yu, Li Liu,
- Abstract要約: テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、現実的なオーディオ・ビジュアルコンテンツを要求する幅広いアプリケーションを支える。
我々は,既存のT2AVモデルの音波物理接地能力を評価するために設計された,難易度の高い音波物理感度ベンチマークであるPhyAVBenchを紹介する。
主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは、音生成の基礎となる物理的メカニズムに対するモデルの理解を明確に評価している。
- 参考スコア(独自算出の注目度): 63.3417467957431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-audio-video (T2AV) generation underpins a wide range of applications demanding realistic audio-visual content, including virtual reality, world modeling, gaming, and filmmaking. However, existing T2AV models remain incapable of generating physically plausible sounds, primarily due to their limited understanding of physical principles. To situate current research progress, we present PhyAVBench, a challenging audio physics-sensitivity benchmark designed to systematically evaluate the audio physics grounding capabilities of existing T2AV models. PhyAVBench comprises 1,000 groups of paired text prompts with controlled physical variables that implicitly induce sound variations, enabling a fine-grained assessment of models' sensitivity to changes in underlying acoustic conditions. We term this evaluation paradigm the Audio-Physics Sensitivity Test (APST). Unlike prior benchmarks that primarily focus on audio-video synchronization, PhyAVBench explicitly evaluates models' understanding of the physical mechanisms underlying sound generation, covering 6 major audio physics dimensions, 4 daily scenarios (music, sound effects, speech, and their mix), and 50 fine-grained test points, ranging from fundamental aspects such as sound diffraction to more complex phenomena, e.g., Helmholtz resonance. Each test point consists of multiple groups of paired prompts, where each prompt is grounded by at least 20 newly recorded or collected real-world videos, thereby minimizing the risk of data leakage during model pre-training. Both prompts and videos are iteratively refined through rigorous human-involved error correction and quality control to ensure high quality. We argue that only models with a genuine grasp of audio-related physical principles can generate physically consistent audio-visual content. We hope PhyAVBench will stimulate future progress in this critical yet largely unexplored domain.
- Abstract(参考訳): テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、バーチャルリアリティ、ワールド・モデリング、ゲーム、映画製作など、現実的な映像コンテンツを要求する幅広いアプリケーションを支える。
しかし、既存のT2AVモデルは、物理原理の理解が限られているため、物理的にもっともらしい音を発生できないままである。
本稿では,既存のT2AVモデルの音波物理接地能力を体系的に評価するために設計された,難解な音波物理感度ベンチマークであるPhyAVBenchを紹介する。
PhyAVBenchは、制御された物理的変数を持つペアテキストプロンプトの1000のグループで構成され、音の変動を暗黙的に誘発し、基礎となる音響条件の変化に対するモデルの感度のきめ細かい評価を可能にする。
本稿では,この評価パラダイムをAudio-Physics Sensitivity Test (APST)と呼ぶ。
主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは6つの主要な音物理次元、4つの日次シナリオ(音楽、音響効果、音声、およびそれらの混合)、50のきめ細かいテストポイントを網羅した、音の回折のような基本的な側面からより複雑な現象(例えばヘルムホルツ共鳴)へのモデルの理解を明確に評価している。
それぞれのテストポイントは、ペア化されたプロンプトの複数のグループで構成されており、各プロンプトは、少なくとも20個の新たに記録または収集された実世界のビデオによって接地され、モデル事前トレーニング中のデータ漏洩のリスクを最小限にする。
プロンプトとビデオは、厳格な人間関係のエラー修正と品質管理によって繰り返し洗練され、高品質が保証される。
音声関連物理原理を真に把握したモデルだけが、物理的に一貫した音声-視覚コンテンツを生成することができると我々は主張する。
PhyAVBenchは、この重要な領域における将来的な進歩を刺激することを期待している。
関連論文リスト
- VABench: A Comprehensive Benchmark for Audio-Video Generation [22.00633729850902]
VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。
タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。
VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
論文 参考訳(メタデータ) (2025-12-10T03:57:29Z) - PAVAS: Physics-Aware Video-to-Audio Synthesis [58.746986798623084]
本稿では、物理推論を潜伏拡散に基づくV2A生成に組み込む手法であるPAVAS(Physical-Aware Video-to-Audio Synthesis)を提案する。
PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-09T06:28:50Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。