Fugu-MT 論文翻訳(概要): BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

論文の概要: BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer

arxiv url: http://arxiv.org/abs/2603.27998v1
Date: Mon, 30 Mar 2026 03:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.215075
Title: BiFormer3D: Grid-Free Time-Domain Reconstruction of Head-Related Impulse Responses with a Spatially Encoded Transformer
Title（参考訳）: BiFormer3D:空間符号化変換器を用いた頭部関連インパルス応答のグリッドフリー時間領域再構成
Authors: Shaoheng Xu, Chunyi Sun, Jihui Zhang, Amy Bastine, Prasanga N. Samarasinghe, Thushara D. Abhayapala, Hongdong Li,
Abstract要約: 本稿では,任意の方向のHRIRをスパース入力から再構成する,時間領域のグリッドフリートランスであるBiFormer3Dを提案する。 SONICOMでは、通常の平均二乗誤差(NMSE)、余弦距離、ITD/ILD誤差を従来の手法よりも改善する。
参考スコア（独自算出の注目度）: 56.68710783939455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Individualized head-related impulse responses (HRIRs) enable binaural rendering, but dense per-listener measurements are costly. We address HRIR spatial up-sampling from sparse per-listener measurements: given a few measured HRIRs for a listener, predict HRIRs at unmeasured target directions. Prior learning methods often work in the frequency domain, rely on minimum-phase assumptions or separate timing models, and use a fixed direction grid, which can degrade temporal fidelity and spatial continuity. We propose BiFormer3D, a time-domain, grid-free binaural Transformer for reconstructing HRIRs at arbitrary directions from sparse inputs. It uses sinusoidal spatial features, a Conv1D refinement module, and auxiliary interaural time difference (ITD) and interaural level difference (ILD) heads. On SONICOM, it improves normalized mean squared error (NMSE), cosine distance, and ITD/ILD errors over prior methods; ablations validate modules and show minimum-phase pre-processing is unnecessary.
Abstract（参考訳）: 個人化された頭部関連インパルス応答(HRIR)はバイノーラルレンダリングを可能にするが、高密度なリスナー単位の測定にはコストがかかる。我々は、リスナー毎のスパース測定からHRIRの空間的アップサンプリングに対処する: リスナーに対して数個の測定されたHRIRを与えられた場合、未測定の目標方向でHRIRを予測する。事前学習法は、しばしば周波数領域で機能し、最小位相の仮定や別々のタイミングモデルに依存し、時間的忠実度と空間的連続性を低下させる固定方向グリッドを使用する。本稿では,任意の方向のHRIRをスパース入力から再構成する,時間領域のグリッドフリーバイノーラルトランスであるBiFormer3Dを提案する。正弦波空間特性、Conv1Dリファインメントモジュール、補助音間時間差(ITD)とILDヘッドを使用する。 SONICOMでは、通常の平均二乗誤差(NMSE)、余弦距離、ITD/ILD誤差を従来の手法よりも改善する。

関連論文リスト

From Sparse Sensors to Continuous Fields: STRIDE for Spatiotemporal Reconstruction [3.2580743227673694]
時空間デコーダを用いた高次元空間場を潜時状態にマッピングするフレームワークSTRIDEを提案する。 STRIDEは超高分解能をサポートし、超高分解能をサポートし、ノイズに対して頑健であることを示す。
論文参考訳（メタデータ） (2026-02-04T04:39:23Z)
RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses [21.84404827658177]
RIR-Formerはグリッドフリーで1ステップのフィードフォワードモデルである。トランスバックボーンに正弦波符号化モジュールを導入することにより,マイクロホン位置情報を効果的に組み込むことができる。様々な模擬音響環境の実験により、RIR-Formerは最先端のベースラインを一貫して上回ることを示した。
論文参考訳（メタデータ） (2026-02-02T09:33:54Z)
DSLO: Deep Sequence LiDAR Odometry Based on Inconsistent Spatio-temporal Propagation [66.8732965660931]
本稿では,LiDAR odometry DSLO の非一貫性時間伝搬に基づく3次元点列学習モデルを提案する。ピラミッド構造で、シーケンシャルなポーズモジュール、階層的なポーズリファインメントモジュール、時間的特徴伝搬モジュールで構成されている。
論文参考訳（メタデータ） (2024-09-01T15:12:48Z)
RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文参考訳（メタデータ） (2024-01-16T18:57:50Z)
Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文参考訳（メタデータ） (2022-11-26T01:56:05Z)
Angular Super-Resolution in Diffusion MRI with a 3D Recurrent Convolutional Autoencoder [0.0]
高分解能拡散MRI(dMRI)データは、臨床環境ではスキャン時間に制限されることが多い。角領域のdMRIボリュームを超解き放つことができる3次元リカレント畳み込みニューラルネットワークを開発した。
論文参考訳（メタデータ） (2022-03-29T14:08:30Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。