論文の概要: Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos
- arxiv url: http://arxiv.org/abs/2303.16897v1
- Date: Wed, 29 Mar 2023 17:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:37:10.863147
- Title: Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos
- Title(参考訳): ビデオからの衝撃音合成のための物理駆動拡散モデル
- Authors: Kun Su, Kaizhi Qian, Eli Shlizerman, Antonio Torralba, Chuang Gan
- Abstract要約: 従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 78.49864987061689
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Modeling sounds emitted from physical object interactions is critical for
immersive perceptual experiences in real and virtual worlds. Traditional
methods of impact sound synthesis use physics simulation to obtain a set of
physics parameters that could represent and synthesize the sound. However, they
require fine details of both the object geometries and impact locations, which
are rarely available in the real world and can not be applied to synthesize
impact sounds from common videos. On the other hand, existing video-driven deep
learning-based approaches could only capture the weak correspondence between
visual content and impact sounds since they lack of physics knowledge. In this
work, we propose a physics-driven diffusion model that can synthesize
high-fidelity impact sound for a silent video clip. In addition to the video
content, we propose to use additional physics priors to guide the impact sound
synthesis procedure. The physics priors include both physics parameters that
are directly estimated from noisy real-world impact sound examples without
sophisticated setup and learned residual parameters that interpret the sound
environment via neural networks. We further implement a novel diffusion model
with specific training and inference strategies to combine physics priors and
visual information for impact sound synthesis. Experimental results show that
our model outperforms several existing systems in generating realistic impact
sounds. More importantly, the physics-based representations are fully
interpretable and transparent, thus enabling us to perform sound editing
flexibly.
- Abstract(参考訳): 実世界と仮想世界の没入的知覚経験には,物理物体の相互作用から発生する音のモデル化が重要である。
従来の衝撃音合成法では、物理シミュレーションを用いて音を表現・合成できる物理パラメータのセットを得る。
しかし、それらは実際の世界ではほとんど利用できず、一般的なビデオからの衝撃音の合成にも適用できない、物体のジオメトリと衝撃位置の両方の詳細な詳細を必要とする。
一方、既存のビデオ駆動深層学習に基づくアプローチは、物理知識が不足しているため、視覚内容と衝撃音との弱い対応を捉えることしかできなかった。
本研究では,サイレントビデオクリップに対して高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
ビデオコンテンツに加えて, 衝撃音合成手順を導くために, 追加の物理計算を優先して用いることを提案する。
物理学の優先事項には、ノイズの多い実世界の衝撃音例から直接推定される物理パラメータと、ニューラルネットワークを介して音環境を解釈する学習された残留パラメータが含まれている。
さらに,物理の優先順位と視覚情報を結合して音響合成を行うための,具体的な学習と推論戦略を備えた新しい拡散モデルの実装を行った。
実験の結果, 本モデルが既存のシステムよりも現実的な衝撃音の生成に優れていることがわかった。
さらに重要なことに、物理ベースの表現は完全に解釈可能で透明なので、音の編集を柔軟に行える。
関連論文リスト
- Differentiable Physics-based System Identification for Robotic Manipulation of Elastoplastic Materials [43.99845081513279]
本研究は, ロボットアームが弾塑性材料と環境の物理パラメータを推定できる, 微分可能物理に基づくシステム同定(DPSI)フレームワークを提案する。
1つの現実世界の相互作用だけで、推定されたパラメータは視覚的および物理的に現実的な振る舞いを正確にシミュレートすることができる。
論文 参考訳(メタデータ) (2024-11-01T13:04:25Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physics-based Human Motion Estimation and Synthesis from Videos [0.0]
単眼のRGBビデオから直接、身体的に可視な人間の動きの生成モデルを訓練するための枠組みを提案する。
提案手法のコアとなるのは,不完全な画像に基づくポーズ推定を補正する新しい最適化式である。
その結果,我々の身体的補正動作は,ポーズ推定における先行作業よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:57:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。