論文の概要: MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation
- arxiv url: http://arxiv.org/abs/2605.00431v1
- Date: Fri, 01 May 2026 06:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.864441
- Title: MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation
- Title(参考訳): MMAudioReverbs:室内インパルス応答推定のためのビデオガイド音響モデル
- Authors: Akira Takahashi, Ryosuke Sawata, Shusuke Takahashi, Yuki Mitsufuji,
- Abstract要約: Video-to-audio(V2A)モデルは、残響や室内インパルス応答(RIR)などの室内音響効果を明示的にモデル化していない。
本稿では,事前学習モデルを用いた室内音響処理手法を提案する。
- 参考スコア(独自算出の注目度): 35.2836152950695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent video-to-audio (V2A) models excelled at synthesizing semantically plausible sounds from visual inputs, they do not explicitly model room-acoustic effects such as reverberation or room impulse responses (RIRs), and thus offer limited controllability over these effects. However, we hypothesize that such V2A models implicitly have semantic knowledge of the relationship between spatial audio and the corresponding vision cues. In this paper, we revisit a V2A model for the sake of the above, and propose the way to utilize the pretrained model as prior for physically grounded room-acoustic processing. Based on one of the state-of-the-art V2A models, MMAudio, we propose MMAudioReverbs that is a unified framework dealing with i) dereverberation and ii) room impulse response (RIR) estimation without network architectural modification, and fine-tuned on a small dataset. Experimental results showed that audio and visual cues respectively have advantage depending on the type of physical room acoustics. It implies that foundation V2A models can be used for physically grounded room-acoustic analysis.
- Abstract(参考訳): 近年のV2Aモデルは視覚入力から意味論的に可聴音を合成するのに優れているが、残響や室内インパルス応答(RIR)などの室内音響効果を明示的にモデル化することはなく、これらの効果に対して限定的な制御性を提供する。
しかし、これらのV2Aモデルが空間音響と対応する視覚的手がかりの関係について、暗黙的に意味的知識を持っていると仮定する。
本稿では, 上記の目的のためにV2Aモデルを再検討し, 室内音響処理の事前学習モデルを利用する方法を提案する。
最先端のV2Aモデルの一つであるMMAudioに基づいて,MMAudioReverbsを提案する。
i (countable かつ uncountable, 複数形 is)
二 ネットワークアーキテクチャの変更なしに部屋インパルス応答(RIR)を推定し、小さなデータセットで微調整すること。
実験結果から, 室内音響の種類によって, 音響的, 視覚的手法がそれぞれ有利であることが示唆された。
これは、基礎的なV2Aモデルが物理的に接地された室内音響解析に使用できることを意味している。
関連論文リスト
- Spatial Audio Question Answering and Reasoning on Dynamic Source Movements [8.029049649310211]
孤立したモノラル音声イベントから多様な動きパターンを合成する動き中心の空間オーディオ拡張フレームワークを提案する。
第二に、音声モデルが明確な中間推論ステップを生成できる思考モードを持つエンドツーエンドのマルチモーダル微調整手法を提案する。
第3に,クエリ条件付きソース分離が事前処理段階に与える影響について検討し,3つの推論条件を比較した。
論文 参考訳(メタデータ) (2026-02-18T10:16:30Z) - PhyAVBench: A Challenging Audio Physics-Sensitivity Benchmark for Physically Grounded Text-to-Audio-Video Generation [63.3417467957431]
テキスト・ツー・オーディオ・ビデオ(T2AV)生成は、現実的なオーディオ・ビジュアルコンテンツを要求する幅広いアプリケーションを支える。
我々は,既存のT2AVモデルの音波物理接地能力を評価するために設計された,難易度の高い音波物理感度ベンチマークであるPhyAVBenchを紹介する。
主に音声とビデオの同期に焦点を当てた以前のベンチマークとは異なり、PhyAVBenchは、音生成の基礎となる物理的メカニズムに対するモデルの理解を明確に評価している。
論文 参考訳(メタデータ) (2025-12-30T05:22:31Z) - PAVAS: Physics-Aware Video-to-Audio Synthesis [58.746986798623084]
本稿では、物理推論を潜伏拡散に基づくV2A生成に組み込む手法であるPAVAS(Physical-Aware Video-to-Audio Synthesis)を提案する。
PAVASは物理的に可塑性かつ知覚的にコヒーレントな音声を生成し、定量評価と定性評価の両方において既存のV2Aモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-12-09T06:28:50Z) - Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces [3.5570874721859016]
GIVT (Generative Infinite-Vocabulary Transformer) から得られる予測情報(IC)は,音楽の期待度や推定値のモデル化に用いられている。
自己回帰拡散モデル(ADM)を用いたICを用いたモデリングの有効性について検討する。
本研究は,(1)音素ピッチ推定,(2)複数トラック音声におけるセグメント境界検出の2つの課題を考察することにより,拡散モデルICが副次的な側面を捉えることの有効性を評価する。
論文 参考訳(メタデータ) (2025-08-07T12:05:27Z) - Generating Moving 3D Soundscapes with Latent Diffusion Models [4.792255437561157]
本稿では,移動音源を明示的に制御したアンビニクス音声を生成するためのフレームワークであるSonicMotionを紹介する。
SonicMotionは、最先端のテキスト音声システムに匹敵する最先端のセマンティックアライメントと知覚品質を実現する。
論文 参考訳(メタデータ) (2025-07-09T22:31:06Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。