論文の概要: EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction
- arxiv url: http://arxiv.org/abs/2605.28101v1
- Date: Wed, 27 May 2026 07:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.861079
- Title: EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction
- Title(参考訳): EigeNet:ビューRIR予測のための幾何インフォームドマルチモーダル学習
- Authors: Chong Jing, Zitong Lan, Junan Zhang, Zhizheng Wu,
- Abstract要約: 数ショットの新規ビューRIR予測のための幾何学インフォームド・マルチモーダル・フレームワークであるEIGENETを提案する。
我々は、このアーキテクチャがマルチビューマルチモーダルコンテキストを完全に活用できることを実証的に実証した。
EigeNETは、数ショットのノベルビューRIR予測とsim-to-realの一般化の両方で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 5.156786627043761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting spatially varying Room Impulse Response (RIR) from sparse observations is a critical but highly challenging inverse problem for immersive spatial audio rendering. In this work, we present EIGENET, a geometry-informed multi-modal framework for few-shot novel view RIR prediction. At its core is a Cross-view Alternate-attention Transformer that iteratively refines local intra-view acoustic structures and global cross-view spatial relationships. We empirically demonstrate that this architecture is capable of making full use of the multi-view multi-modal context while performing spatial-temporal reasoning for RIR prediction. Inspired by acoustic ray tracing, we design a geometry-informed modulation block to formulate the connection between geometric features and RIR power spectrum. In the mean time, an auxiliary loss is introduced to transform the single-target waveform prediction into a multi-task learning framework. Through ablation studies, we demonstrate that this design yields consistent performance gains regardless of the underlying backbone, thereby confirming its foundational utility and architecture-agnostic generalizability for RIR prediction task. Evaluated on both simulated and real-world benchmarks, EIGENET achieves both state-of-the-art performance in few-shot novel view RIR prediction and sim-to-real generalization. Codes and checkpoints are available on https://github.com/FEAfeatherTHER/EigeNet.
- Abstract(参考訳): 空間的に異なる空間インパルス応答(RIR)をスパース観測から予測することは、没入型空間オーディオレンダリングにおいて非常に困難な逆問題である。
本稿では,幾何インフォームド・マルチモーダル・フレームワークであるEIGENETについて紹介する。
中心となるのは、局所的な管内音響構造とグローバルな管内空間関係を反復的に洗練するクロスビュー・オルタナト・アテンション・トランスである。
我々は、このアーキテクチャが、RIR予測のための空間的時間的推論を実行しながら、マルチビューマルチモーダルコンテキストを完全に活用できることを実証的に実証した。
音響的レイトレーシングにインスパイアされ、幾何学的特徴とRIRパワースペクトルの接続を定式化する幾何学的インフォームド変調ブロックを設計する。
平均すると、単一ターゲット波形予測をマルチタスク学習フレームワークに変換するために補助的損失を導入する。
アブレーション研究を通じて、この設計は基礎となるバックボーンによらず一貫した性能向上をもたらすことを実証し、RIR予測タスクの基本的な実用性とアーキテクチャに依存しない一般化性を確認する。
EIGENETはシミュレーションと実世界のベンチマークの両方で評価され、数ショットのノベルビュー RIR 予測とシム・トゥ・リアルの一般化で最先端のパフォーマンスを達成している。
コードとチェックポイントはhttps://github.com/FEAfeatherTHER/EigeNetで入手できる。
関連論文リスト
- A Geometric Algebra-informed NeRF Framework for Generalizable Wireless Channel Prediction [28.17627433640575]
無線チャネル予測のための幾何代数インフォームドニューラル放射場(GAI-NeRF)を提案する。
我々のアプローチにはグローバルトークン表現が組み込まれており、言語や視覚領域のトランスフォーマーアーキテクチャからインスピレーションを得ている。
GAI-NeRFはチャネル予測タスクにおいて優れた性能を発揮することを示す実験結果を得た。
論文 参考訳(メタデータ) (2026-04-13T19:20:29Z) - RIR-Former: Coordinate-Guided Transformer for Continuous Reconstruction of Room Impulse Responses [21.84404827658177]
RIR-Formerはグリッドフリーで1ステップのフィードフォワードモデルである。
トランスバックボーンに正弦波符号化モジュールを導入することにより,マイクロホン位置情報を効果的に組み込むことができる。
様々な模擬音響環境の実験により、RIR-Formerは最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-02-02T09:33:54Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。