論文の概要: Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training
- arxiv url: http://arxiv.org/abs/2504.14409v1
- Date: Sat, 19 Apr 2025 21:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:47:33.806599
- Title: Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training
- Title(参考訳): 検索型事前学習を用いたニューラルネットワークによるデータ強化
- Authors: Christopher Ick, Gordon Wichern, Yoshiki Masuyama, François G. Germain, Jonathan Le Roux,
- Abstract要約: 本報告では,ICASSP 2025のジェネレーティブデータ拡張ワークショップに提出された室内インパルス応答(RIR)推定システムについて詳述する。
まず,RIRとジオメトリのペアが提供される外部大規模データセット上で,室内形状を条件としたニューラル音場を事前訓練する。
次に、入力データを用いて、ニューラルネットワークを各目標室に適応させる。
タスク1で特定されたソースと受信者のそれぞれについてRIRを予測し、これらのRIRを用いてタスク2における話者距離推定モデルをトレーニングする。
- 参考スコア(独自算出の注目度): 34.14967280931229
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This report details MERL's system for room impulse response (RIR) estimation submitted to the Generative Data Augmentation Workshop at ICASSP 2025 for Augmenting RIR Data (Task 1) and Improving Speaker Distance Estimation (Task 2). We first pre-train a neural acoustic field conditioned by room geometry on an external large-scale dataset in which pairs of RIRs and the geometries are provided. The neural acoustic field is then adapted to each target room by using the enrollment data, where we leverage either the provided room geometries or geometries retrieved from the external dataset, depending on availability. Lastly, we predict the RIRs for each pair of source and receiver locations specified by Task 1, and use these RIRs to train the speaker distance estimation model in Task 2.
- Abstract(参考訳): 本報告では, ICASSP 2025 の生成データ拡張ワークショップに提出された室内インパルス応答(RIR)推定システムについて詳述する。
まず,RIRとジオメトリのペアが提供される外部大規模データセット上で,室内形状を条件としたニューラル音場を事前訓練する。
次に、入力データを用いて、ニューラルネットワークを各目標室に適応させ、得られた部屋のジオメトリまたはジオメトリを、可用性に応じて外部データセットから取得したジオメトリを利用する。
最後に、タスク1で指定されたソースと受信者のペアごとにRIRを予測し、これらのRIRを用いてタスク2における話者距離推定モデルをトレーニングする。
関連論文リスト
- DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models [16.92449230293275]
高品質なRIR推定は、仮想マイク、音源のローカライゼーション、拡張現実、データ拡張などのアプリケーションを駆動する。
本研究は, 騒音拡散確率モデル(DDPM)を用いて, 室内の未測定箇所でRIRを推定することの課題に対処する。
論文 参考訳(メタデータ) (2025-04-29T10:52:07Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - NeuRBF: A Neural Fields Representation with Adaptive Radial Basis
Functions [93.02515761070201]
本稿では,信号表現に一般放射状基底を用いる新しいタイプのニューラルネットワークを提案する。
提案手法は, 空間適応性が高く, ターゲット信号により密着可能な, フレキシブルなカーネル位置と形状を持つ一般ラジアルベース上に構築する。
ニューラルラジアンス場再構成に適用した場合,本手法はモデルサイズが小さく,訓練速度が同等である最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2023-09-27T06:32:05Z) - Data-driven modelling of brain activity using neural networks, Diffusion
Maps, and the Koopman operator [0.0]
タスク依存型fMRIデータから脳活動の長期外ダイナミクスをモデル化するための機械学習手法を提案する。
我々は拡散写像(DM)を用いて、創発的な高次元fMRI時系列が進化する低次元多様体をパラメータ化する変数の集合を発見する。
組込み多様体上にFNN(Feedforward Neural Networks)とクープマン演算子(Koopman operator)という2つの手法を用いて、低次モデル(ROM)を構築する。
論文 参考訳(メタデータ) (2023-04-24T09:08:12Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Self-Learning for Received Signal Strength Map Reconstruction with
Neural Architecture Search [63.39818029362661]
ニューラルアーキテクチャサーチ(NAS)と受信信号強度(RSS)マップ再構築のための自己学習に基づくモデルを提案する。
このアプローチは、まず最適なNNアーキテクチャを見つけ、与えられた(RSS)マップの地上実測値に対して同時に推論モデルを訓練する。
実験結果から,この第2モデルの信号予測は,非学習に基づく最先端技術や,アーキテクチャ探索を伴わないNNモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-05-17T12:19:22Z) - StoRIR: Stochastic Room Impulse Response Generation for Audio Data
Augmentation [6.824692201913681]
StoRIRは、機械学習アプリケーションにおける音声データ拡張専用の室内インパルス応答生成手法である。
音声強調タスクにおける音声データ拡張に使用されるStoRIRは,従来の画像ソース法よりも広い範囲のメトリクスにおいて,ディープラーニングモデルによりより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-17T11:56:47Z) - Weakly-supervised land classification for coastal zone based on deep convolutional neural networks by incorporating dual-polarimetric characteristics into training dataset [1.0494061710470493]
本研究では, 空間偏光合成開口レーダ(PolSAR)を用いた意味的セグメンテーションにおけるDCNNの性能について検討する。
PolSARデータを用いたセマンティックセグメンテーションタスクは、SARデータの特徴とアノテート手順が考慮されている場合、弱い教師付き学習に分類することができる。
次に、SegNet、U-Net、LinkNetを含む3つのDCNNモデルが実装されている。
論文 参考訳(メタデータ) (2020-03-30T17:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。