論文の概要: RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses
- arxiv url: http://arxiv.org/abs/2602.01861v2
- Date: Tue, 03 Feb 2026 06:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.73168
- Title: RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses
- Title(参考訳): RIR-Former:室内インパルス応答の連続再構成のためのコーディネートガイド変換器
- Authors: Shaoheng Xu, Chunyi Sun, Jihui Zhang, Prasanga N. Samarasinghe, Thushara D. Abhayapala,
- Abstract要約: RIR-Formerはグリッドフリーで1ステップのフィードフォワードモデルである。
トランスバックボーンに正弦波符号化モジュールを導入することにより,マイクロホン位置情報を効果的に組み込むことができる。
様々な模擬音響環境の実験により、RIR-Formerは最先端のベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 21.84404827658177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Room impulse responses (RIRs) are essential for many acoustic signal processing tasks, yet measuring them densely across space is often impractical. In this work, we propose RIR-Former, a grid-free, one-step feed-forward model for RIR reconstruction. By introducing a sinusoidal encoding module into a transformer backbone, our method effectively incorporates microphone position information, enabling interpolation at arbitrary array locations. Furthermore, a segmented multi-branch decoder is designed to separately handle early reflections and late reverberation, improving reconstruction across the entire RIR. Experiments on diverse simulated acoustic environments demonstrate that RIR-Former consistently outperforms state-of-the-art baselines in terms of normalized mean square error (NMSE) and cosine distance (CD), under varying missing rates and array configurations. These results highlight the potential of our approach for practical deployment and motivate future work on scaling from randomly spaced linear arrays to complex array geometries, dynamic acoustic scenes, and real-world environments.
- Abstract(参考訳): 室内インパルス応答(RIR)は多くの音響信号処理タスクに必須であるが、空間にわたって密に計測することは現実的ではないことが多い。
本研究では,RIR再構成のためのグリッドフリー1ステップフィードフォワードモデルであるRIR-Formerを提案する。
トランスバックボーンに正弦波符号化モジュールを導入することにより、マイクロホン位置情報を効果的に組み込むことで、任意の配列位置での補間を可能にする。
さらに、セグメント化されたマルチブランチデコーダは、初期反射と遅延残響を別々に処理し、RIR全体の再構築を改善するように設計されている。
種々の模擬音響環境における実験により、RIR-Formerは正規化平均二乗誤差(NMSE)とコサイン距離(CD)で常に最先端のベースラインを上回っている。
これらの結果は,ランダムに配置された線形配列から複雑な配列幾何学,動的音響シーン,実世界の環境への拡張に向けた,我々のアプローチの実践的展開と動機付けの可能性を浮き彫りにした。
関連論文リスト
- Rotation Equivariant Arbitrary-scale Image Super-Resolution [62.41329042683779]
任意のスケールの超解像(ASISR)は、低解像度の入力画像から任意のスケールの高分解能回復を実現することを目的としている。
本研究では, 回転同変ASISR法の構築に尽力する。
論文 参考訳(メタデータ) (2025-08-07T08:51:03Z) - DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models [16.92449230293275]
高品質なRIR推定は、仮想マイク、音源のローカライゼーション、拡張現実、データ拡張などのアプリケーションを駆動する。
本研究は, 騒音拡散確率モデル(DDPM)を用いて, 室内の未測定箇所でRIRを推定することの課題に対処する。
論文 参考訳(メタデータ) (2025-04-29T10:52:07Z) - SpINR: Neural Volumetric Reconstruction for FMCW Radars [0.15193212081459279]
本稿では、周波数変調連続波(FMCW)レーダデータを用いたボリューム再構成のための新しいフレームワークSpINRを紹介する。
従来のバックプロジェクション手法や既存の学習ベースアプローチよりも,SpINRの方が優れていることを示す。
論文 参考訳(メタデータ) (2025-03-30T04:44:57Z) - NeuRBF: A Neural Fields Representation with Adaptive Radial Basis
Functions [93.02515761070201]
本稿では,信号表現に一般放射状基底を用いる新しいタイプのニューラルネットワークを提案する。
提案手法は, 空間適応性が高く, ターゲット信号により密着可能な, フレキシブルなカーネル位置と形状を持つ一般ラジアルベース上に構築する。
ニューラルラジアンス場再構成に適用した場合,本手法はモデルサイズが小さく,訓練速度が同等である最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2023-09-27T06:32:05Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - K-Space Transformer for Fast MRIReconstruction with Implicit
Representation [39.04792898427536]
そこで本稿では,k-space における疎サンプルMRI信号の処理を行う Transformer ベースのフレームワークを提案する。
我々は、分光図の暗黙的な表現を採用し、空間座標を入力として扱い、部分的に観察された測定を動的にクエリする。
計算コストと再構成品質のバランスをとるために,高分解能デコーダと高分解能デコーダの階層構造を構築した。
論文 参考訳(メタデータ) (2022-06-14T16:06:15Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。