論文の概要: Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds
- arxiv url: http://arxiv.org/abs/2509.04166v1
- Date: Thu, 04 Sep 2025 12:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.159543
- Title: Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds
- Title(参考訳): 種分化を横切る:音声から動物音への伝達学習
- Authors: Jules Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoit Favre,
- Abstract要約: 自己教師型音声モデルは,音声処理において顕著な性能を示したが,その非音声データに対する効果は未検討のままである。
我々は,HuBERT,WavLM,XEUSなどのモデルが,分類群全体にわたって動物の音の豊かな潜伏表現を生成可能であることを示す。
その結果, 微調整された生体音響事前学習モデルと競合し, ノイズローバスト事前学習装置の影響を示す。
- 参考スコア(独自算出の注目度): 24.203596224724848
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised speech models have demonstrated impressive performance in speech processing, but their effectiveness on non-speech data remains underexplored. We study the transfer learning capabilities of such models on bioacoustic detection and classification tasks. We show that models such as HuBERT, WavLM, and XEUS can generate rich latent representations of animal sounds across taxa. We analyze the models properties with linear probing on time-averaged representations. We then extend the approach to account for the effect of time-wise information with other downstream architectures. Finally, we study the implication of frequency range and noise on performance. Notably, our results are competitive with fine-tuned bioacoustic pre-trained models and show the impact of noise-robust pre-training setups. These findings highlight the potential of speech-based self-supervised learning as an efficient framework for advancing bioacoustic research.
- Abstract(参考訳): 自己教師型音声モデルは,音声処理において顕著な性能を示したが,その非音声データに対する効果は未検討のままである。
生体音響検出および分類タスクにおいて,そのようなモデルの伝達学習能力について検討する。
我々は,HuBERT,WavLM,XEUSなどのモデルが,分類群全体にわたって動物の音の豊かな潜伏表現を生成可能であることを示す。
時間平均表現に基づく線形探索によりモデル特性を解析する。
次に、他のダウンストリームアーキテクチャによる時間的情報の影響を考慮するために、アプローチを拡張します。
最後に、周波数範囲と雑音が性能に与える影響について検討する。
特に,本研究の結果は,微調整された生体音響事前学習モデルと競合し,ノイズローバスト事前学習装置の影響を示す。
これらの知見は, バイオ音響研究を推進するための効果的な枠組みとして, 音声による自己指導学習の可能性を強調した。
関連論文リスト
- Learning Robust Spatial Representations from Binaural Audio through Feature Distillation [64.36563387033921]
データラベルを必要とせずに音声の頑健な空間表現を学習するために,特徴蒸留に基づく事前学習ステージの利用について検討する。
実験により, 事前学習したモデルでは, 騒音および残響環境における性能が向上していることが示された。
論文 参考訳(メタデータ) (2025-08-28T15:43:15Z) - Synthetic data enables context-aware bioacoustic sound event detection [18.158806322128527]
本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。
我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。
トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
論文 参考訳(メタデータ) (2025-03-01T02:03:22Z) - Comparing Self-Supervised Learning Models Pre-Trained on Human Speech and Animal Vocalizations for Bioacoustics Processing [19.205671029694074]
自己教師付き学習(SSL)基盤モデルは、強力でドメインに依存しない汎用的特徴抽出器として登場した。
本稿では,動物発声に直接事前学習したSSLモデルが,事前学習した音声に対して有意な優位性をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2025-01-10T14:18:21Z) - NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics [35.72581102737726]
NatureLM-audioはバイオ音響学に特化して設計された最初のオーディオ言語基盤モデルである。
トレーニングデータセットは、バイオアコースティック、スピーチ、音楽にまたがるテキストとオーディオのペアを慎重にキュレートしたものだ。
音楽や音声から生体音響への学習表現の伝達が成功し,本モデルは未知の分類群や課題への有望な一般化を示す。
論文 参考訳(メタデータ) (2024-11-11T18:01:45Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。