論文の概要: Dependence on Early and Late Reverberation of Single-Channel Speaker Distance Estimation
- arxiv url: http://arxiv.org/abs/2605.07694v1
- Date: Fri, 08 May 2026 13:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.05706
- Title: Dependence on Early and Late Reverberation of Single-Channel Speaker Distance Estimation
- Title(参考訳): 単チャンネル話者距離推定の早期・後期残響依存性
- Authors: Michael Neri, Archontis Politis, Tuomas Virtanen,
- Abstract要約: 我々は、エコー密度関数から推定される混合時間を初期反射と後期残響の境界として利用して、シミュレーションIRを4つの変種(フル、ダイレクトオンリー、ノーレイト、ノーアーリー)に分解する。
その結果,時間校正がなければ平均絶対誤差(MAE)は1.29$mに増加し,残響に基づく手がかりを抽出することがわかった。
DRR、$C_50$、$T_60$に対するさらなる分析により、推定精度はより強い初期エネルギーで向上し、高い残響環境下では劣化することを確認した。
- 参考スコア(独自算出の注目度): 12.789423188641168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-channel speaker distance estimation has recently achieved centimeter-level accuracy in simulated environments, yet it remains unclear which components of the room impulse response (RIR) the model exploits and how performance depends on the recording conditions. In this work, we decompose simulated RIRs into four variants (full, direct-only, no-late, and no-early) using the mixing time estimated from the echo density function as the boundary between early reflections and late reverberation. We define four calibration scenarios, from fully calibrated (synchronised capture, known source level) to fully uncalibrated (arbitrary onset, unknown level), and evaluate all combinations on a matched dataset. Results show that without time calibration, mean absolute error (MAE) increases to $1.29$ m and the model extracts reverberation-based cues, with early reflections emerging as the most informative component. Further analysis against DRR, $C_{50}$, and $T_{60}$ confirms that estimation accuracy improves with stronger early energy and degrades in highly reverberant environments. When time calibration is available, the model achieves a MAE of $0.14$ m by extracting the propagation delay alone, regardless of the RIR content.
- Abstract(参考訳): 単一チャネル話者距離推定は,最近シミュレーション環境においてセンチメートル単位の精度を達成しているが,どのコンポーネントが室内インパルス応答(RIR)を利用しており,その性能が記録条件に依存するかは定かではない。
本研究では, エコー密度関数から推定した混合時間を初期反射と後期残響の境界として用いて, シミュレーションRIRを4つの変種(フル, ダイレクトオンリー, ノーレイト, ノーアーリー)に分解する。
完全校正(同期キャプチャ、既知のソースレベル)から完全非校正(任意オンセット、未知レベル)までの4つの校正シナリオを定義し、一致したデータセット上ですべての組み合わせを評価する。
その結果、時間校正がなければ平均絶対誤差(MAE)は1.29$mに増加し、モデルが残響に基づく手がかりを抽出し、初期の反射が最も有益な成分として現れることが示された。
DRR、$C_{50}$、$T_{60}$に対するさらなる分析により、推定精度はより強い初期エネルギーで向上し、高い残響環境下では劣化することを確認した。
時間キャリブレーションが可能となると、RIRの内容に関わらず、伝搬遅延のみを抽出することにより、MAEが0.14$mとなる。
関連論文リスト
- BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer [56.68710783939455]
本稿では,任意の方向のHRIRをスパース入力から再構成する,時間領域のグリッドフリートランスであるBiFormer3Dを提案する。
SONICOMでは、通常の平均二乗誤差(NMSE)、余弦距離、ITD/ILD誤差を従来の手法よりも改善する。
論文 参考訳(メタデータ) (2026-03-30T03:39:16Z) - TMPDiff: Temporal Mixed-Precision for Diffusion Models [10.106598516648418]
TMPDiffは拡散モデルのための時間混合精度フレームワークである。
異なる数値の精度を異なる識別タイムステップに割り当てる。
一致したスピードアップで一様精度のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-03-14T18:06:46Z) - Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics [0.0]
本稿では,室内音響に対する自動音声認識(ASR)の頑健性を評価するために,一対のクリーン音声と残響音声のベンチマークデータセットWhisper-RIR-Megaを紹介する。
各サンプルは、RIR-Megaコーパスからの実室インパルス応答を伴う同じ発話とクリーンなLibriSpeech発話をペアリングする。
1600個のテストサンプルに対して5つのWhisperモデルを評価し,クリーンで残響な条件下で単語誤り率(WER)と文字誤り率(CER)を報告する。
論文 参考訳(メタデータ) (2026-02-27T01:44:39Z) - Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering [3.7758197704962835]
重み付きデカイプローブを用いて、モデル内部のアクティベーションから正当性信号を捕捉する正規化時間ステアリング法であるCORALを導入する。
コラルは、常に精度を10%改善し、期待キャリブレーション誤差(ECE)を平均50%改善する。
本結果は,個々のニューロンが不十分な場合,正規化プローブを用いてモデル内部の分散情報を抽出できるという仮説を支持する。
論文 参考訳(メタデータ) (2026-02-05T18:55:56Z) - Echo State Networks for Time Series Forecasting: Hyperparameter Sweep and Benchmarking [51.56484100374058]
我々は、完全に自動で純粋にフィードバック駆動のESNが、広く使われている統計的予測手法の代替となるかどうかを評価する。
予測精度は、MASEとsMAPEを用いて測定され、ドリフトや季節予測、統計モデルといった単純なベンチマークと比較される。
論文 参考訳(メタデータ) (2026-02-03T16:01:22Z) - Amortized Simulation-Based Inference in Generalized Bayes via Neural Posterior Estimation [1.096028999747108]
一般化ベイズ推論(英語版)(GBI)は、過信を緩和し、モデルの不特定性の下で改善するために温度$>0$の損失を誘惑する。
本研究は,1つの前進パスでサンプリング可能な1ドル(x,)$条件のニューラルな後進推定器$q_(mid x,)$をトレーニングすることにより,最初の完全償却変分近似を後進群$p_(mid x) propto (),p(x mid )$に与える。
論文 参考訳(メタデータ) (2026-01-29T22:20:47Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Confidence Adaptive Anytime Pixel-Level Recognition [86.75784498879354]
任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-01T20:01:57Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。