論文の概要: PAVAS: Physics-Aware Video-to-Audio Synthesis
- arxiv url: http://arxiv.org/abs/2512.08282v1
- Date: Tue, 09 Dec 2025 06:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.837217
- Title: PAVAS: Physics-Aware Video-to-Audio Synthesis
- Title(参考訳): PAVAS:物理を意識したオーディオ合成
- Authors: Oh Hyun-Bin, Yuhta Takida, Toshimitsu Uesaka, Tae-Hyun Oh, Yuki Mitsufuji,
- Abstract要約: 本稿では、物理推論を潜伏拡散に基づくV2A生成に組み込む手法であるPAVAS(Physical-Aware Video-to-Audio Synthesis)を提案する。
PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 58.746986798623084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Video-to-Audio (V2A) generation have achieved impressive perceptual quality and temporal synchronization, yet most models remain appearance-driven, capturing visual-acoustic correlations without considering the physical factors that shape real-world sounds. We present Physics-Aware Video-to-Audio Synthesis (PAVAS), a method that incorporates physical reasoning into a latent diffusion-based V2A generation through the Physics-Driven Audio Adapter (Phy-Adapter). The adapter receives object-level physical parameters estimated by the Physical Parameter Estimator (PPE), which uses a Vision-Language Model (VLM) to infer the moving-object mass and a segmentation-based dynamic 3D reconstruction module to recover its motion trajectory for velocity computation. These physical cues enable the model to synthesize sounds that reflect underlying physical factors. To assess physical realism, we curate VGG-Impact, a benchmark focusing on object-object interactions, and introduce Audio-Physics Correlation Coefficient (APCC), an evaluation metric that measures consistency between physical and auditory attributes. Comprehensive experiments show that PAVAS produces physically plausible and perceptually coherent audio, outperforming existing V2A models in both quantitative and qualitative evaluations. Visit https://physics-aware-video-to-audio-synthesis.github.io for demo videos.
- Abstract(参考訳): 近年のV2A (Video-to-Audio) 生成の進歩は目覚しい品質と時間的同期を達成しているが、ほとんどのモデルでは実世界の音を形作る物理的要因を考慮せずに、視覚的・音響的相関を捉えている。
本稿では,物理駆動型オーディオアダプタ(Phy-Adapter)を用いて,物理推論を潜時拡散型V2A生成に組み込む物理対応ビデオ音声合成(PAVAS)を提案する。
このアダプタは、物理パラメータ推定器(PPE)によって推定されるオブジェクトレベルの物理パラメータを受け取り、VLM(Vision-Language Model)を用いて移動物体の質量とセグメンテーションに基づく動的3D再構成モジュールを推定し、速度計算のための運動軌跡を復元する。
これらの物理的手がかりにより、モデルは基礎となる物理的要因を反映した音を合成できる。
物理的リアリズムを評価するために,対象物間相互作用に着目したベンチマークであるVGG-Impactをキュレートし,物理的属性と聴覚属性の整合性を測定する評価指標であるAudio-Physics correlation Coefficient (APCC)を導入する。
総合的な実験により、PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることが示された。
デモビデオはhttps://physics-aware-video-to-audio- synthesis.github.ioをご覧ください。
関連論文リスト
- PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。