論文の概要: GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness
- arxiv url: http://arxiv.org/abs/2507.18119v2
- Date: Fri, 25 Jul 2025 08:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.23373
- Title: GOAT-SLM: A Spoken Language Model with Paralinguistic and Speaker Characteristic Awareness
- Title(参考訳): GOAT-SLM:パラ言語的・話者的特徴認識を有する音声言語モデル
- Authors: Hongjie Chen, Zehan Li, Yaodong Song, Wenming Deng, Yitong Yao, Yuxin Zhang, Hang Lv, Xuechao Zhu, Jian Kang, Jie Lian, Jie Li, Chao Wang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li,
- Abstract要約: 本稿では,パラ言語的・話者的特徴認識を備えた新しい言語モデルGOAT-SLMを紹介する。
GOAT-SLMは、言語モデリングを音響的実現から切り離すデュアルモダリティヘッドアーキテクチャを採用している。
GOAT-SLMはセマンティックタスクと非セマンティックタスクの両方でバランスよく動作し、既存のオープンソースモデルよりも感情や方言の変化、年齢に敏感なインタラクションを処理できることを示す。
- 参考スコア(独自算出の注目度): 43.67571101152883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in end-to-end spoken language models (SLMs) have significantly improved the ability of AI systems to engage in natural spoken interactions. However, most existing models treat speech merely as a vehicle for linguistic content, often overlooking the rich paralinguistic and speaker characteristic cues embedded in human speech, such as dialect, age, emotion, and non-speech vocalizations. In this work, we introduce GOAT-SLM, a novel spoken language model with paralinguistic and speaker characteristic awareness, designed to extend spoken language modeling beyond text semantics. GOAT-SLM adopts a dual-modality head architecture that decouples linguistic modeling from acoustic realization, enabling robust language understanding while supporting expressive and adaptive speech generation. To enhance model efficiency and versatility, we propose a modular, staged training strategy that progressively aligns linguistic, paralinguistic, and speaker characteristic information using large-scale speech-text corpora. Experimental results on TELEVAL, a multi-dimensional evaluation benchmark, demonstrate that GOAT-SLM achieves well-balanced performance across both semantic and non-semantic tasks, and outperforms existing open-source models in handling emotion, dialectal variation, and age-sensitive interactions. This work highlights the importance of modeling beyond linguistic content and advances the development of more natural, adaptive, and socially aware spoken language systems.
- Abstract(参考訳): 近年のSLM(End-to-end Speech Language Model)の進歩により、AIシステムが自然な音声対話を行う能力が大幅に向上した。
しかし、既存のほとんどのモデルは、言語内容の手段としてのみ音声を扱うものであり、方言、年齢、感情、非音声発声など、人間の言語に埋め込まれた豊かなパラ言語的・話者的特徴の手がかりを見渡すことが多い。
本研究では,テキスト意味論以外の言語モデルの拡張を目的とした,パラ言語的・話者的特徴認識を備えた新しい言語モデルGOAT-SLMを提案する。
GOAT-SLMは、言語モデリングを音響的実現から切り離し、表現的および適応的な音声生成をサポートしながら、堅牢な言語理解を可能にするデュアルモダリティヘッドアーキテクチャを採用している。
モデル効率と汎用性を向上させるため,大規模音声テキストコーパスを用いた言語・パラ言語・話者特性情報を段階的に整列するモジュール型学習戦略を提案する。
多次元評価ベンチマークであるTELEVALの実験結果から,GOAT-SLMはセマンティックタスクと非セマンティックタスクの両方でバランスの取れたパフォーマンスを達成し,感情や方言の変動,年齢依存的なインタラクションを扱う上で,既存のオープンソースモデルよりも優れていることが示された。
この研究は、言語コンテンツを超えたモデリングの重要性を強調し、より自然で適応的で社会的に認識された音声言語システムの開発を進める。
関連論文リスト
- Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation [18.89091877062589]
LanStyleTTS は非自己回帰型言語対応の適応型 TTS フレームワークである。
言語固有のモデルを訓練することなく、正確で高品質な音声を生成することができる統合多言語TSモデルをサポートしている。
論文 参考訳(メタデータ) (2025-04-11T06:12:57Z) - Linguistic Knowledge Transfer Learning for Speech Enhancement [29.191204225828354]
言語知識は、言語理解において重要な役割を果たす。
ほとんどの音声強調法は、雑音とクリーンな音声のマッピング関係を学習するために音響的特徴に依存している。
本稿では,言語知識をSEモデルに統合するクロスモーダル・ナレッジ・トランスファー(CMKT)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-10T09:00:18Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。
音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文 参考訳(メタデータ) (2024-09-16T10:29:15Z) - DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Paralinguistics-Aware Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。