論文の概要: Can Self-Supervised Neural Representations Pre-Trained on Human Speech
distinguish Animal Callers?
- arxiv url: http://arxiv.org/abs/2305.14035v2
- Date: Wed, 31 May 2023 15:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:10:23.900721
- Title: Can Self-Supervised Neural Representations Pre-Trained on Human Speech
distinguish Animal Callers?
- Title(参考訳): 音声による自己監督型ニューラル表現は動物呼び出し者を区別できるか?
- Authors: Eklavya Sarkar and Mathew Magimai.-Doss
- Abstract要約: 自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。
本稿では,人間の音声から学習したSSLニューラル表現の相互伝達性について検討し,生体音響信号の解析を行う。
- 参考スコア(独自算出の注目度): 23.041173892976325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) models use only the intrinsic structure of a
given signal, independent of its acoustic domain, to extract essential
information from the input to an embedding space. This implies that the utility
of such representations is not limited to modeling human speech alone. Building
on this understanding, this paper explores the cross-transferability of SSL
neural representations learned from human speech to analyze bio-acoustic
signals. We conduct a caller discrimination analysis and a caller detection
study on Marmoset vocalizations using eleven SSL models pre-trained with
various pretext tasks. The results show that the embedding spaces carry
meaningful caller information and can successfully distinguish the individual
identities of Marmoset callers without fine-tuning. This demonstrates that
representations pre-trained on human speech can be effectively applied to the
bio-acoustics domain, providing valuable insights for future investigations in
this field.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。
これは、そのような表現の有用性は、人間の発話のみをモデル化することに限らないことを意味する。
この理解に基づいて,人間の音声から学習したSSLニューラル表現の相互伝達性を調べ,生体音響信号の解析を行う。
各種プリテキストタスクを事前学習した11種類のSSLモデルを用いて、発声者識別分析および発声者検出を行う。
その結果, 埋め込み空間には意味のある発信者情報があり, 微調整なしでマーモセット発呼者の個人識別に成功できることが示唆された。
このことは、人間の発話に事前訓練された表現がバイオ音響領域に効果的に適用できることを示し、この分野での今後の研究に有用な洞察を提供する。
関連論文リスト
- On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文 参考訳(メタデータ) (2024-07-23T12:00:44Z) - Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Self-Supervised Learning for Few-Shot Bird Sound Classification [10.395255631261458]
音声における自己教師あり学習(SSL)は、様々な領域において大きな可能性を秘めている。
本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。
論文 参考訳(メタデータ) (2023-12-25T22:33:45Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Emotion Recognition of the Singing Voice: Toward a Real-Time Analysis
Tool for Singers [0.0]
現在の計算感情研究は、感情が数学的に知覚される方法を分析するために音響特性を適用することに焦点を当てている。
本稿は,関連する研究の知見を反映し,拡張し,この目標に向けての一歩を踏み出す。
論文 参考訳(メタデータ) (2021-05-01T05:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。