論文の概要: Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization
- arxiv url: http://arxiv.org/abs/2511.13487v2
- Date: Tue, 18 Nov 2025 13:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.894145
- Title: Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Localization
- Title(参考訳): バイノーラル音源定位のための時間周波数特性の系統的評価
- Authors: Davoud Shariat Panah, Alessandro Ragano, Dan Barry, Jan Skoglund, Andrew Hines,
- Abstract要約: 本研究は,多種多様な条件における特徴選択がモデル性能に与える影響に焦点を当てた。
本稿では,振幅に基づく様々な特徴の組み合わせを用いた畳み込みニューラルネットワーク(CNN)モデルの性能について検討する。
- 参考スコア(独自算出の注目度): 47.16858222861157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a systematic evaluation of time-frequency feature design for binaural sound source localization (SSL), focusing on how feature selection influences model performance across diverse conditions. We investigate the performance of a convolutional neural network (CNN) model using various combinations of amplitude-based features (magnitude spectrogram, interaural level difference - ILD) and phase-based features (phase spectrogram, interaural phase difference - IPD). Evaluations on in-domain and out-of-domain data with mismatched head-related transfer functions (HRTFs) reveal that carefully chosen feature combinations often outperform increases in model complexity. While two-feature sets such as ILD + IPD are sufficient for in-domain SSL, generalization to diverse content requires richer inputs combining channel spectrograms with both ILD and IPD. Using the optimal feature sets, our low-complexity CNN model achieves competitive performance. Our findings underscore the importance of feature design in binaural SSL and provide practical guidance for both domain-specific and general-purpose localization.
- Abstract(参考訳): 本研究では,バイノーラル音源定位法(SSL)における時間周波数特徴設計の体系的評価を行い,特徴選択がモデル性能に与える影響に着目した。
コンボリューションニューラルネットワーク(CNN)モデルにおいて,振幅に基づく特徴(振幅スペクトル,音間レベル差 - ILD)と位相に基づく特徴(位相スペクトル,音間位相差 - IPD)の様々な組み合わせを用いた性能について検討した。
ドメイン内およびドメイン外データに対する不一致な頭部伝達関数(HRTF)による評価により、慎重に選択された特徴の組み合わせがモデル複雑性を上回りやすいことが判明した。
ILD + IPDのような2機能セットはドメイン内のSSLには十分であるが、多様なコンテンツへの一般化には、IDDとIDDの両方を組み合わせたチャネルスペクトログラムのリッチな入力が必要である。
最適な特徴セットを用いて,低複雑性CNNモデルを用いて競合性能を実現する。
本研究は,バイノーラルSSLにおける特徴設計の重要性を強調し,ドメイン固有および汎用の両方のローカライゼーションの実践的ガイダンスを提供する。
関連論文リスト
- Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image Classification [8.600534616819333]
本稿では,空間スペクトル拡散コントラスト表現ネットワーク(DiffCRN)を提案する。
DiffCRNは、高スペクトル画像分類のための拡散確率モデル(DDPM)とコントラスト学習(CL)の組み合わせに基づく。
広く使われている4つのHSIデータセットを用いて実験を行い、提案したDiffCRNの性能改善を実証した。
論文 参考訳(メタデータ) (2025-02-27T02:34:23Z) - Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation in Surgical and Deep-Sea Exploration Robots [34.28684917337352]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - Feature Aggregation in Joint Sound Classification and Localization
Neural Networks [0.0]
現在の最先端の音源ローカライゼーション深層学習ネットワークは、アーキテクチャ内での機能集約を欠いている。
我々は,コンピュータビジョンニューラルネットワークから信号検出ニューラルネットワークへ特徴集約技術を適用する。
論文 参考訳(メタデータ) (2023-10-29T16:37:14Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。