論文の概要: BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization
- arxiv url: http://arxiv.org/abs/2207.03927v2
- Date: Wed, 7 Aug 2024 13:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 18:42:56.223424
- Title: BAST: Binaural Audio Spectrogram Transformer for Binaural Sound Localization
- Title(参考訳): BAST:バイノーラル音像定位のためのバイノーラル音声スペクトル変換器
- Authors: Sheng Kuang, Jie Shi, Kiki van der Heijden, Siamak Mehrkanoon,
- Abstract要約: そこで本研究では,アネコ音と残響音の両環境における音響方位を予測するために,バイノーラル・オーディオ・スペクトログラム・トランスフォーマ(BAST)モデルを提案する。
本モデルでは, 角距離1.29度, 平均角誤差1e-3を全方位で達成する。
- 参考スコア(独自算出の注目度): 4.096808965934516
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate sound localization in a reverberation environment is essential for human auditory perception. Recently, Convolutional Neural Networks (CNNs) have been utilized to model the binaural human auditory pathway. However, CNN shows barriers in capturing the global acoustic features. To address this issue, we propose a novel end-to-end Binaural Audio Spectrogram Transformer (BAST) model to predict the sound azimuth in both anechoic and reverberation environments. Two modes of implementation, i.e. BAST-SP and BAST-NSP corresponding to BAST model with shared and non-shared parameters respectively, are explored. Our model with subtraction interaural integration and hybrid loss achieves an angular distance of 1.29 degrees and a Mean Square Error of 1e-3 at all azimuths, significantly surpassing CNN based model. The exploratory analysis of the BAST's performance on the left-right hemifields and anechoic and reverberation environments shows its generalization ability as well as the feasibility of binaural Transformers in sound localization. Furthermore, the analysis of the attention maps is provided to give additional insights on the interpretation of the localization process in a natural reverberant environment.
- Abstract(参考訳): 残響環境における正確な音像定位は人間の聴覚知覚に不可欠である。
近年,畳み込みニューラルネットワーク (CNN) を用いてバイノーラルヒト聴覚経路をモデル化している。
しかし、CNNは地球規模の音響特性を捉える際の障壁を示す。
そこで本研究では,アネコ音と残響音の両環境における音響方位を予測するために,バイノーラル・オーディオ・スペクトログラム・トランスフォーマ(BAST)モデルを提案する。
共有パラメータを持つBASTモデルと非共有パラメータを持つBASTモデルに対応するBAST-SPとBAST-NSPの2つの実装モードについて検討した。
本モデルでは, 角距離1.29度, 平均角誤差1e-3を全方位で達成し, CNNモデルを大きく上回っている。
左半球および無響および残響環境におけるBASTの性能の探索的分析は、その一般化能力と、音像定位におけるバイノーラルトランスフォーマーの実現可能性を示している。
さらに, 自然残響環境における局所化過程の解釈について, 注意マップの解析を行った。
関連論文リスト
- Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。