論文の概要: Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.15981v1
- Date: Mon, 16 Mar 2026 22:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.028599
- Title: Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning
- Title(参考訳): マルチタスク強化学習による音声LLMのパラ言語的理解と生成の調整
- Authors: Jingxiang Chen, Minseok Kim, Seong-Gyun Leem, Yin Huang, Rashi Rungta, Zhicheng Ouyang, Haibin Wu, Surya Teja Appini, Ankur Bansal, Yang Bai, Yue Liu, Florian Metze, Ahmed A Aly, Anuj Kumar, Ariya Rastrow, Zhaojiang Lin,
- Abstract要約: 音声大言語モデル(LLM)は韻律、感情、非言語音などのパラ言語的手がかりを観察する。
本稿では,マルチタスク強化学習(RL)を提案する。
実験により,本手法は教師付きベースラインと強力なプロプライエタリモデルの両方に対するパラ言語学的理解を改善することが示された。
- 参考スコア(独自算出の注目度): 40.8328755967818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech large language models (LLMs) observe paralinguistic cues such as prosody, emotion, and non-verbal sounds--crucial for intent understanding. However, leveraging these cues faces challenges: limited training data, annotation difficulty, and models exploiting lexical shortcuts over paralinguistic signals. We propose multi-task reinforcement learning (RL) with chain-of-thought prompting that elicits explicit affective reasoning. To address data scarcity, we introduce a paralinguistics-aware speech LLM (PALLM) that jointly optimizes sentiment classification from audio and paralinguistics-aware response generation via a two-stage pipeline. Experiments demonstrate that our approach improves paralinguistics understanding over both supervised baselines and strong proprietary models (Gemini-2.5-Pro, GPT-4o-audio) by 8-12% on Expresso, IEMOCAP, and RAVDESS. The results show that modeling paralinguistic reasoning with multi-task RL is crucial for building emotionally intelligent speech LLMs.
- Abstract(参考訳): 音声大言語モデル(LLM)は、韻律、感情、非言語音などのパラ言語的手がかりを観察する。
しかし、これらの手がかりを活用することは、訓練データを制限すること、アノテーションの難しさ、およびパラ言語的信号に対する語彙的ショートカットを利用するモデルといった課題に直面している。
本稿では,マルチタスク強化学習(RL)を提案する。
データ不足に対処するために,2段階パイプラインによる音声とパラ言語対応応答生成から感情分類を協調的に最適化するパラ言語対応音声LLM(PALLM)を導入する。
提案手法は,Expresso, IEMOCAP, RAVDESSにおいて,教師付きベースラインと強力なプロプライエタリモデル(Gemini-2.5-Pro, GPT-4o-audio)を8~12%向上させる。
その結果,マルチタスクRLを用いたパラ言語推論のモデル化は,感情的知的音声LLMの構築に不可欠であることが示唆された。
関連論文リスト
- Resurfacing Paralinguistic Awareness in Large Audio Language Models [64.48666302711108]
LALM(Large Audio Language Models)は、人間と音声との相互作用を拡張している。
LALMは通常そのようなパラ言語的な手がかりを無視し、クエリの内容のみに基づいて応答する。
本稿では,パラ言語対応機能を持つLALMに則って,パラ言語対応ファインチューニング(PE-FT)プロトコルを提案する。
論文 参考訳(メタデータ) (2026-03-12T13:56:42Z) - Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities [20.51281468416298]
指向性を大規模言語モデル(LLM)に統合する2つの新しいアプローチを提案する。
これらのアプローチはすべて、スマートグラスに埋め込まれたマルチマイクロホンアレイを使用して、指向性解釈と処理をストリーミング的に最適化する。
論文 参考訳(メタデータ) (2026-02-06T21:45:48Z) - EmoSLLM: Parameter-Efficient Adaptation of LLMs for Speech Emotion Recognition [0.0]
音声からの感情認識は言語とパラ言語の両方を捉えることを必要とする難しい課題である。
最近の研究は、Large Language Models(LLM)が唯一の自然言語領域の外でタスクを実行する能力を強調している。
本研究は、感情予測のための音声およびテキスト表現を備えたLLMを微調整する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-08-19T06:58:16Z) - Dual Information Speech Language Models for Emotional Conversations [48.094826104102204]
音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
論文 参考訳(メタデータ) (2025-08-11T15:33:44Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Beyond Silent Letters: Amplifying LLMs in Emotion Recognition with Vocal Nuances [3.396456345114466]
本稿では,音声特徴を自然言語記述に変換するSpeechCueLLMを提案する。
我々は、IEMOCAPとMELDの2つのデータセット上でSpeechCueLLMを評価し、感情認識精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-07-31T03:53:14Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。