論文の概要: Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
- arxiv url: http://arxiv.org/abs/2508.20914v1
- Date: Thu, 28 Aug 2025 15:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.48844
- Title: Learning Robust Spatial Representations from Binaural Audio through Feature Distillation
- Title(参考訳): 特徴蒸留によるバイノーラルオーディオからのロバストな空間表現の学習
- Authors: Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Shinji Watanabe, Zheng-Hua Tan,
- Abstract要約: データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
- 参考スコア(独自算出の注目度): 64.36563387033921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep representation learning has shown strong performance in multiple audio tasks. However, its use for learning spatial representations from multichannel audio is underexplored. We investigate the use of a pretraining stage based on feature distillation to learn a robust spatial representation of binaural speech without the need for data labels. In this framework, spatial features are computed from clean binaural speech samples to form prediction labels. These clean features are then predicted from corresponding augmented speech using a neural network. After pretraining, we throw away the spatial feature predictor and use the learned encoder weights to initialize a DoA estimation model which we fine-tune for DoA estimation. Our experiments demonstrate that the pretrained models show improved performance in noisy and reverberant environments after fine-tuning for direction-of-arrival estimation, when compared to fully supervised models and classic signal processing methods.
- Abstract(参考訳): 近年,複数の音声タスクにおける深層表現学習の性能が向上している。
しかし,マルチチャンネル音声から空間表現を学習するために使用する手法は未検討である。
データラベルを必要とせずにバイノーラル音声のロバストな空間表現を学習するために,特徴蒸留に基づく事前訓練ステージの利用について検討した。
このフレームワークでは、クリーンなバイノーラル音声サンプルから空間的特徴を計算し、予測ラベルを形成する。
これらのクリーンな特徴は、ニューラルネットワークを使用して対応する拡張現実から予測される。
プレトレーニング後,空間特徴予測器を捨て,学習したエンコーダ重みを用いてDoA推定モデルを初期化する。
実験により,事前学習したモデルは,完全教師付きモデルや古典的信号処理手法と比較して,方向推定のための微調整後の雑音および残響環境の性能向上を示すことを示した。
関連論文リスト
- Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Analysis of Feature Representations for Anomalous Sound Detection [3.4782990087904597]
本研究では,前訓練ニューラルネットワークの異常音検出のための特徴抽出器としての有用性を評価する。
これらのニューラルネットワークに含まれる知識を活用して、セマンティックにリッチな特徴を抽出します。
本手法は,バルブ,ポンプ,スライダ,ファンなどの工場用機器の記録に基づいて評価する。
論文 参考訳(メタデータ) (2020-12-11T12:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。