Fugu-MT 論文翻訳(概要): Benchmarking Single-Factor Physical Video-to-Audio Generation

論文の概要: Benchmarking Single-Factor Physical Video-to-Audio Generation

arxiv url: http://arxiv.org/abs/2605.30339v1
Date: Thu, 28 May 2026 17:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.750964
Title: Benchmarking Single-Factor Physical Video-to-Audio Generation
Title（参考訳）: シングルファクター物理映像とオーディオ生成のベンチマーク
Authors: Tingle Li, Siddharth Gururani, Kevin J. Shih, Gantavya Bhatt, Sang-gil Lee, Zhifeng Kong, Arushi Goel, Gopala Anumanchipalli, Ming-Yu Liu,
Abstract要約: V2A(Generative Video-to-audio)モデルは非常に可塑性なサウンドトラックを生成するが、それらが基礎となる物理過程を捉えているかどうかは不明だ。本稿では,V2Aモデルの物理的推論を,制御された対物対を通して評価するベンチマークを提案する。我々の結果は、音質を超えて、ピクセルから直接物理プロセスを学ぶことの必要性を強調している。
参考スコア（独自算出の注目度）: 40.20239686648815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative video-to-audio (V2A) models produce highly plausible soundtracks, but it remains unclear whether they capture the underlying physical processes. Existing evaluations emphasize perceptual realism and overlook physical correctness under controlled interventions. In this paper, we introduce FlatSounds, a benchmark that audits the physical reasoning of V2A models through: 1) controlled counterfactual pairs in which a single physical factor is varied, and 2) single-video pattern tests that probe internal consistency and directional trends. These settings test whether the generated audio correctly reflects specific physical properties and timings. Our evaluation of state-of-the-art models reveals a consistent trade-off: models rely more on text captions than the visual stream to infer physics and semantics. Captions generally improve physical and semantic accuracy, but paradoxically degrade temporal alignment. Our results highlight the need to move beyond audio quality toward learning physical processes directly from pixels. Finally, we find that our physics-based metrics correlate strongly with human preference tests on our own data. Project webpage: https://research.nvidia.com/labs/cosmos-lab/flatsounds/
Abstract（参考訳）: V2A(Generative Video-to-audio)モデルは非常に可塑性なサウンドトラックを生成するが、それらが基礎となる物理過程を捉えているかどうかは不明だ。既存の評価は知覚現実主義を強調し、制御された介入の下で身体的正当性を見落としている。本稿では,V2Aモデルの物理的推論を評価するベンチマークであるFlatSoundsを紹介する。 1)1つの物理因子が変動する制御された対物対、及び 2) 内部の一貫性と方向の傾向を調査する単一ビデオパターンテスト。これらの設定は、生成されたオーディオが特定の物理的特性とタイミングを正しく反映しているかどうかをテストする。モデルは物理と意味論を推論するために、ビジュアルストリームよりもテキストキャプションに依存している。キャプションは一般的に身体的および意味的精度を改善するが、パラドックス的に時間的アライメントを低下させる。我々の結果は、音質を超えて、ピクセルから直接物理プロセスを学ぶことの必要性を強調している。最後に、物理に基づく測定値が、我々のデータ上の人間の嗜好テストと強く相関していることがわかりました。プロジェクトWebページ: https://research.nvidia.com/labs/cosmos-lab/flatsounds/

関連論文リスト

Do Joint Audio-Video Generation Models Understand Physics? [49.44016960193229]
共同オーディオビデオ生成モデルは、プロのプロダクション品質に急速に近づいている。音と視覚の物理を理解しているのか、それとも、現実の一貫性に反するプラウチブルな音やフレームを生成するだけなのか? AV-Phys Benchは、共同オーディオビデオ生成における物理コモンセンスを評価するためのベンチマークである。
論文参考訳（メタデータ） (2026-05-08T00:14:07Z)
MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation [35.2836152950695]
Video-to-audio(V2A)モデルは、残響や室内インパルス応答(RIR)などの室内音響効果を明示的にモデル化していない。本稿では,事前学習モデルを用いた室内音響処理手法を提案する。
論文参考訳（メタデータ） (2026-05-01T06:06:56Z)
Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。 PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文参考訳（メタデータ） (2026-03-06T15:48:25Z)
PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation [63.3417467957431]
テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、現実的なオーディオ・ビジュアルコンテンツを要求する幅広いアプリケーションを支える。我々は,既存のT2AVモデルの音波物理接地能力を評価するために設計された,難易度の高い音波物理感度ベンチマークであるPhyAVBenchを紹介する。主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは、音生成の基礎となる物理的メカニズムに対するモデルの理解を明確に評価している。
論文参考訳（メタデータ） (2025-12-30T05:22:31Z)
PAVAS: Physics-Aware Video-to-Audio Synthesis [58.746986798623084]
本稿では、物理推論を潜伏拡散に基づくV2A生成に組み込む手法であるPAVAS(Physical-Aware Video-to-Audio Synthesis)を提案する。 PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることを示す。
論文参考訳（メタデータ） (2025-12-09T06:28:50Z)
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文参考訳（メタデータ） (2025-10-13T15:19:07Z)
Visually Guided Sound Source Separation and Localization using Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文参考訳（メタデータ） (2021-04-17T10:09:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。