論文の概要: On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis
- arxiv url: http://arxiv.org/abs/2407.16417v1
- Date: Tue, 23 Jul 2024 12:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:26:03.780636
- Title: On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis
- Title(参考訳): Marmosetコール分析のための音声・音声基礎モデルの有用性について
- Authors: Eklavya Sarkar, Mathew Magimai. -Doss,
- Abstract要約: 本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
- 参考スコア(独自算出の注目度): 19.205671029694074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Marmoset monkeys encode vital information in their calls and serve as a surrogate model for neuro-biologists to understand the evolutionary origins of human vocal communication. Traditionally analyzed with signal processing-based features, recent approaches have utilized self-supervised models pre-trained on human speech for feature extraction, capitalizing on their ability to learn a signal's intrinsic structure independently of its acoustic domain. However, the utility of such foundation models remains unclear for marmoset call analysis in terms of multi-class classification, bandwidth, and pre-training domain. This study assesses feature representations derived from speech and general audio domains, across pre-training bandwidths of 4, 8, and 16 kHz for marmoset call-type and caller classification tasks. Results show that models with higher bandwidth improve performance, and pre-training on speech or general audio yields comparable results, improving over a spectral baseline.
- Abstract(参考訳): マーモセットサルは通話中の重要な情報をエンコードし、人間の声のコミュニケーションの進化的起源を理解するために神経生物学者の代理モデルとして機能する。
従来の信号処理に基づく特徴分析では、人間の音声に事前訓練された自己教師モデルを用いて特徴抽出を行い、その音響領域とは独立して信号の固有構造を学習する能力を活用している。
しかし, マルチクラス分類, 帯域幅, 事前学習領域の観点から, マーモセットコール解析における基礎モデルの有用性は明らかでない。
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
関連論文リスト
- Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - Can Self-Supervised Neural Representations Pre-Trained on Human Speech
distinguish Animal Callers? [23.041173892976325]
自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。
本稿では,人間の音声から学習したSSLニューラル表現の相互伝達性について検討し,生体音響信号の解析を行う。
論文 参考訳(メタデータ) (2023-05-23T13:06:14Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Learning spectro-temporal representations of complex sounds with
parameterized neural networks [16.270691619752288]
本稿では、Gaborカーネル(Learnable STRF)に基づく特定の分光時間変調を演算するパラメトリゼーションニューラルネットワーク層を提案する。
音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。
この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。
論文 参考訳(メタデータ) (2021-03-12T07:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。