論文の概要: Few-shot Acoustic Synthesis with Multimodal Flow Matching
- arxiv url: http://arxiv.org/abs/2603.19176v1
- Date: Thu, 19 Mar 2026 17:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.300667
- Title: Few-shot Acoustic Synthesis with Multimodal Flow Matching
- Title(参考訳): マルチモーダルフローマッチングによる音響合成
- Authors: Amandine Brunetto,
- Abstract要約: 本稿では,数発の音響合成のための確率的手法であるフローマッチング音響生成(FLAC)を紹介する。
FLACは、最先端の8ショットベースラインを2つのデータセットで1ショットで上回る。
この研究は、生成フローマッチングを明示的なRIR合成に適用し、ロバストでデータ効率の良い音響合成のための新しい方向を確立する最初のものである。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating audio that is acoustically consistent with a scene is essential for immersive virtual environments. Recent neural acoustic field methods enable spatially continuous sound rendering but remain scene-specific, requiring dense audio measurements and costly training for each environment. Few-shot approaches improve scalability across rooms but still rely on multiple recordings and, being deterministic, fail to capture the inherent uncertainty of scene acoustics under sparse context. We introduce flow-matching acoustic generation (FLAC), a probabilistic method for few-shot acoustic synthesis that models the distribution of plausible room impulse responses (RIRs) given minimal scene context. FLAC leverages a diffusion transformer trained with a flow-matching objective to generate RIRs at arbitrary positions in novel scenes, conditioned on spatial, geometric, and acoustic cues. FLAC outperforms state-of-the-art eight-shot baselines with one-shot on both the AcousticRooms and Hearing Anything Anywhere datasets. To complement standard perceptual metrics, we further introduce AGREE, a joint acoustic-geometry embedding, enabling geometry-consistent evaluation of generated RIRs through retrieval and distributional metrics. This work is the first to apply generative flow matching to explicit RIR synthesis, establishing a new direction for robust and data-efficient acoustic synthesis.
- Abstract(参考訳): 没入型仮想環境において、シーンと音響的に整合した音声を生成することが不可欠である。
近年のニューラル・アコースティック・フィールド法は、空間的に連続した音像のレンダリングを可能にするが、シーン固有のままであり、高密度の音響測定と各環境に対する費用のかかる訓練を必要としている。
部屋間のスケーラビリティを改善するアプローチはほとんどないが、それでも複数の録音に依存しており、決定論的でありながら、スパースコンテキスト下でのシーンアコースティックの固有の不確実性を捉えることができない。
本稿では,最小シーン環境下での可視室インパルス応答 (RIR) の分布をモデル化する,少数ショット音響合成のための確率論的手法であるフローマッチング音響生成(FLAC)を紹介する。
FLACは、フローマッチングの目的で訓練された拡散トランスフォーマーを利用して、空間的、幾何学的、音響的手がかりに基づいて、新しいシーンで任意の位置でIRRを生成する。
FLACは、AtlassianRoomsとHearing Anything Anywhereのデータセットの両方で、最先端の8ショットベースラインを1ショットで上回る。
標準的な知覚測度を補完するため、我々はさらに、統合音響幾何学の埋め込みであるAGREEを導入し、検索および分布測度を通して生成したRIRの幾何整合性評価を可能にした。
この研究は、生成フローマッチングを明示的なRIR合成に適用し、ロバストでデータ効率の良い音響合成のための新しい方向を確立する最初のものである。
関連論文リスト
- DOA Estimation with Lightweight Network on LLM-Aided Simulated Acoustic Scenes [46.0445214387366]
空間音響および音響信号処理において,方向推定(DOA)が重要である。
奥行き分離可能な畳み込みに基づく軽量なDOA推定モデルであるLightDOAを提案する。
実験結果から,LightDOAは様々な音響シーンで良好な精度とロバスト性が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-11T09:15:06Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。