論文の概要: Dual Information Speech Language Models for Emotional Conversations
- arxiv url: http://arxiv.org/abs/2508.08095v1
- Date: Mon, 11 Aug 2025 15:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.177542
- Title: Dual Information Speech Language Models for Emotional Conversations
- Title(参考訳): 感情会話のための二重情報言語モデル
- Authors: Chun Wang, Chenyang Liu, Wenze Xu, Weihong Deng,
- Abstract要約: 音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
- 参考スコア(独自算出の注目度): 48.094826104102204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational systems relying on text-based large language models (LLMs) often overlook paralinguistic cues, essential for understanding emotions and intentions. Speech-language models (SLMs), which use speech as input, are emerging as a promising solution. However, SLMs built by extending frozen LLMs struggle to capture paralinguistic information and exhibit reduced context understanding. We identify entangled information and improper training strategies as key issues. To address these issues, we propose two heterogeneous adapters and suggest a weakly supervised training strategy. Our approach disentangles paralinguistic and linguistic information, enabling SLMs to interpret speech through structured representations. It also preserves contextual understanding by avoiding the generation of task-specific vectors through controlled randomness. This approach trains only the adapters on common datasets, ensuring parameter and data efficiency. Experiments demonstrate competitive performance in emotional conversation tasks, showcasing the model's ability to effectively integrate both paralinguistic and linguistic information within contextual settings.
- Abstract(参考訳): 会話システムはテキストベースの大規模言語モデル(LLM)に依存しており、感情や意図を理解するのに不可欠なパラ言語的な手がかりを見落としていることが多い。
音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
しかし, 凍結LDMを拡張して構築したSLMは, パラ言語的情報の収集に苦慮し, 文脈理解の低減を図っている。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
これらの問題に対処するため、我々は2つの異種アダプタを提案し、弱教師付きトレーニング戦略を提案する。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
また、制御されたランダム性を通じてタスク固有ベクトルの生成を避けることにより、文脈的理解も維持する。
このアプローチでは、共通データセット上のアダプタのみをトレーニングし、パラメータとデータ効率を確保する。
実験は感情的な会話タスクにおける競合性能を示し、文脈設定内でパラ言語情報と言語情報の両方を効果的に統合するモデルの能力を示す。
関連論文リスト
- Incorporating Contextual Paralinguistic Understanding in Large Speech-Language Models [19.864555505996112]
本研究では,文脈パラ言語情報をモデル学習に組み込む2つの手法を提案する。
我々の暗黙的手法は、人間の注釈付きQAベンチマークでパフォーマンス(LLM-judged)を38.41%向上させ、明示的なアプローチと組み合わせると46.02%に達した。
論文 参考訳(メタデータ) (2025-08-10T10:03:30Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Frozen Large Language Models Can Perceive Paralinguistic Aspects of Speech [29.847183061204436]
本研究は、重みを微調整することなく、音声のパラ言語的側面を理解するための大規模言語モデル(LLM)の能力について研究する。
音声エンコーダを用いたエンドツーエンドシステムを用いて,LLMの表現的音声プロンプトに対する応答が意味的に一致するテキストプロンプトに対する応答と一致するように,トークン埋め込みを訓練する。
論文 参考訳(メタデータ) (2024-10-02T01:32:47Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。