論文の概要: GmSLM : Generative Marmoset Spoken Language Modeling
- arxiv url: http://arxiv.org/abs/2509.09198v1
- Date: Thu, 11 Sep 2025 07:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.262262
- Title: GmSLM : Generative Marmoset Spoken Language Modeling
- Title(参考訳): GmSLM : 生成マーモセット音声言語モデリング
- Authors: Talia Sternberg, Michael London, David Omer, Yossi Adi,
- Abstract要約: マーモセット猿は複雑な声のコミュニケーションを示し、非ヒトの霊長類の声のコミュニケーションは本質的に自然であるという考えに挑戦する。
本稿では,Marmoset音声通信のための音声モデルパイプラインであるGenerative Marmoset Spoken Language Modeling (GmSLM)を紹介する。
- 参考スコア(独自算出の注目度): 25.41795174590263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Marmoset monkeys exhibit complex vocal communication, challenging the view that nonhuman primates vocal communication is entirely innate, and show similar features of human speech, such as vocal labeling of others and turn-taking. Studying their vocal communication offers a unique opportunity to link it with brain activity-especially given the difficulty of accessing the human brain in speech and language research. Since Marmosets communicate primarily through vocalizations, applying standard LLM approaches is not straightforward. We introduce Generative Marmoset Spoken Language Modeling (GmSLM), an optimized spoken language model pipeline for Marmoset vocal communication. We designed a novel zero-shot evaluation metrics using unsupervised in-the-wild data, alongside weakly labeled conversational data, to assess GmSLM and demonstrate its advantage over a basic human-speech-based baseline. GmSLM generated vocalizations closely matched real resynthesized samples acoustically and performed well on downstream tasks. Despite being fully unsupervised, GmSLM effectively distinguish real from artificial conversations and may support further investigations of the neural basis of vocal communication and provides a practical framework linking vocalization and brain activity. We believe GmSLM stands to benefit future work in neuroscience, bioacoustics, and evolutionary biology. Samples are provided under: pages.cs.huji.ac.il/adiyoss-lab/GmSLM.
- Abstract(参考訳): マーモセットサルは複雑な声のコミュニケーションを示し、非ヒトの霊長類の声のコミュニケーションは完全に生まれつきであるという考えに挑戦し、他の人の声のラベル付けやターンテイクのような人間の声の類似した特徴を示す。
彼らの声道コミュニケーションを研究することは、特に音声や言語研究において人間の脳にアクセスするのが困難であることを考えると、脳の活動とリンクするユニークな機会となる。
Marmosetsは主に発声を通して通信するため、標準LLMアプローチを適用することは簡単ではない。
本稿では,Marmoset音声通信のための音声モデルパイプラインであるGenerative Marmoset Spoken Language Modeling (GmSLM)を紹介する。
我々は、GmSLMの評価と基本音声ベースラインに対するその優位性を示すために、教師なしのin-the-wildデータと弱いラベル付き会話データを用いて、新しいゼロショット評価指標を設計した。
GmSLMは実合成サンプルと密に一致した発声を音響的に生成し、下流のタスクで良好に動作した。
完全に教師されていないにもかかわらず、GmSLMは人工会話と現実を効果的に区別し、音声コミュニケーションの神経基盤のさらなる研究を支援し、発声と脳活動を結びつける実践的な枠組みを提供する。
我々は、GmSLMが神経科学、生物音響学、進化生物学における将来の研究に役立つと信じている。
サンプルは以下の通りである。 page.cs.huji.ac.il/adiyoss-lab/GmSLM。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Can Self-Supervised Neural Representations Pre-Trained on Human Speech
distinguish Animal Callers? [23.041173892976325]
自己教師付き学習(SSL)モデルは、入力から埋め込み空間へ重要な情報を抽出するために、その音響領域とは独立して与えられた信号の固有の構造のみを使用する。
本稿では,人間の音声から学習したSSLニューラル表現の相互伝達性について検討し,生体音響信号の解析を行う。
論文 参考訳(メタデータ) (2023-05-23T13:06:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。