論文の概要: Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation
- arxiv url: http://arxiv.org/abs/2605.00721v1
- Date: Fri, 01 May 2026 15:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.99366
- Title: Towards Improving Speaker Distance Estimation through Generative Impulse Response Augmentation
- Title(参考訳): 生成的インパルス応答増強による話者距離推定の改善に向けて
- Authors: Anton Ratnarajah, Mehmet Ergezer, Arun Nair, Mrudula Athi,
- Abstract要約: GenDARAのこの課題は、スパースデータセットと微調整されたSDEモデルを拡張データで補うためにIRを生成することである。
我々は、話者とリスナーの位置にのみ条件付きオープンソースの高速拡散室インパルス応答発生器(FastRIR)を採用する。
提案手法は,5つの位置の平均絶対誤差(MAE)を,GWA室では1.66mから0.6m,トレブル室では2.18mから0.69mに低減させる。
- 参考スコア(独自算出の注目度): 5.038792743196818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Room Acoustics and Speaker Distance Estimation (SDE) Challenge at ICASSP 2025 explores the effectiveness of augmented room impulse response (RIR) data for improving SDE model performance. This challenge at GenDARA involves generating RIRs to supplement sparse datasets and fine-tuning SDE models with the augmented data. We employ the open-source fast diffuse room impulse response generator (FastRIR) conditioned only on speaker and listener locations. We design a quality filter to ensure generated RIR alignment with challenge RIRs, and hyperparameter optimization is employed for model fine-tuning. Our approach reduces the mean absolute error (MAE) of the five positions from 1.66m to 0.6m for GWA rooms and from 2.18m to 0.69m for Treble rooms, with results demonstrating that the augmentation approach significantly improves estimation accuracy, particularly at medium to long distances.
- Abstract(参考訳): The Room Acoustics and Speaker Distance Estimation (SDE) Challenge at ICASSP 2025では、SDEモデルの性能向上のための拡張室インパルス応答(RIR)データの有効性について検討している。
GenDARAのこの課題は、スパースデータセットと微調整されたSDEモデルを拡張データで補完するIRを生成することである。
我々は、話者とリスナーの位置にのみ条件付きオープンソースの高速拡散室インパルス応答発生器(FastRIR)を採用する。
我々は,高パラメータ最適化をモデル微調整に用いた品質フィルタの設計を行った。
提案手法は,5つの位置の平均絶対誤差(MAE)を,GWA室では1.66mから0.6m,トレブル室では2.18mから0.69mに低減させる。
関連論文リスト
- SARES-DEIM: Sparse Mixture-of-Experts Meets DETR for Robust SAR Ship Detection [13.697178700187402]
SAR(Synthetic Aperture Radar)画像における船体検出は、固有のコヒーレントスペックルノイズによって根本的に困難である。
本稿では,Detection TRansformer(DETR)パラダイムに基づくドメイン認識検出フレームワークSARES-DEIMを提案する。
我々のアプローチの中心はSARESMoEであり、これはスパースゲーティング機構を利用して特殊周波数やウェーブレットの専門家に特徴を選択的にルーティングするモジュールである。
論文 参考訳(メタデータ) (2026-04-05T14:15:39Z) - Decoupled Diffusion Sampling for Inverse Problems on Function Spaces [73.52103661482242]
既存のプラグ・アンド・プレイ拡散後サンプリングは係数ジョイント・ソリューション・モデリングを通じて物理を暗黙的に表現する。
逆PDE問題に対する関数空間における物理認識型生成フレームワークを提案する。
我々の解答拡散逆ソルバー(DDIS)は、非条件拡散が事前に係数を学習し、ニューラル演算子はガイダンスのためにフォワードPDEを明示的にモデル化する。
論文 参考訳(メタデータ) (2026-01-30T18:54:49Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Environment-Aware Indoor LoRaWAN Ranging Using Path Loss Model Inversion and Adaptive RSSI Filtering [3.776919981139063]
本稿では,環境に配慮したマルチウォールパス損失モデルとRSSIのためのKalman prefilterを結合した,軽量で解釈可能なパイプラインを提案する。
アプローチは平均絶対誤差(MAE)は4.74m、根平均二乗誤差(RMSE)は6.76mである。
論文 参考訳(メタデータ) (2025-05-02T11:00:40Z) - Data Augmentation Using Neural Acoustic Fields With Retrieval-Augmented Pre-training [34.14967280931229]
本報告では,ICASSP 2025のジェネレーティブデータ拡張ワークショップに提出された室内インパルス応答(RIR)推定システムについて詳述する。
まず,RIRとジオメトリのペアが提供される外部大規模データセット上で,室内形状を条件としたニューラル音場を事前訓練する。
次に、入力データを用いて、ニューラルネットワークを各目標室に適応させる。
タスク1で特定されたソースと受信者のそれぞれについてRIRを予測し、これらのRIRを用いてタスク2における話者距離推定モデルをトレーニングする。
論文 参考訳(メタデータ) (2025-04-19T21:43:56Z) - VoiceExtender: Short-utterance Text-independent Speaker Verification
with Guided Diffusion Model [28.316314490687667]
本稿では,短時間の音声信号処理において,SV性能を改善するための有望なソリューションを提供するVoiceExtenderというアーキテクチャを提案する。
本稿では,2つの拡散モデル,組込みと外部話者埋め込み(SE)誘導拡散モデルを用いて,拡散モデルに基づくサンプル生成器を用いて短い発話に基づいて音声特徴を増強する。
提案手法は, それぞれ0.5, 1.0, 1.5, 2.0秒の短い発話条件に対して, 46.1%, 35.7%, 10.4%, 5.7%の誤差率(EER)を相対的に改善した。
論文 参考訳(メタデータ) (2023-10-07T03:42:19Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。