論文の概要: Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs
- arxiv url: http://arxiv.org/abs/2506.06820v1
- Date: Sat, 07 Jun 2025 14:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.496833
- Title: Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs
- Title(参考訳): 分類を超えて:マルチタスクオーディオLLMによる音声感情推論を目指して
- Authors: Wenyu Zhang, Yingxu He, Geyu Lin, Zhuohan Liu, Shuo Sun, Bin Wang, Xunlong Zou, Jeremy H. M. Wong, Qiongqiong Wang, Hardik B. Sailor, Nancy F. Chen, Ai Ti Aw,
- Abstract要約: 我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
- 参考スコア(独自算出の注目度): 37.62433475609052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Large Language Models (AudioLLMs) have achieved strong results in semantic tasks like speech recognition and translation, but remain limited in modeling paralinguistic cues such as emotion. Existing approaches often treat emotion understanding as a classification problem, offering little insight into the underlying rationale behind predictions. In this work, we explore emotion reasoning, a strategy that leverages the generative capabilities of AudioLLMs to enhance emotion recognition by producing semantically aligned, evidence-grounded explanations. To support this in multitask AudioLLMs, we introduce a unified framework combining reasoning-augmented data supervision, dual-encoder architecture, and task-alternating training. This approach enables AudioLLMs to effectively learn different tasks while incorporating emotional reasoning. Experiments on IEMOCAP and MELD show that our approach not only improves emotion prediction accuracy but also enhances the coherence and evidential grounding of the generated responses.
- Abstract(参考訳): 音声大言語モデル(AudioLLMs)は、音声認識や翻訳のような意味的なタスクにおいて大きな成果を上げてきたが、感情のようなパラ言語的手がかりのモデル化には依然として限られている。
既存のアプローチは感情理解を分類問題として扱うことが多く、予測の背後にある理論的根拠についてはほとんど見当たらない。
本研究では,AudioLLMsの生成能力を活用し,意味的に整合したエビデンスに基づく説明を生成することにより,感情認識を向上させる戦略である感情推論について検討する。
マルチタスクAudioLLMでこれをサポートするために、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを導入する。
このアプローチにより、AudioLLMは感情的推論を取り入れながら、さまざまなタスクを効果的に学習できる。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
関連論文リスト
- VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in
Conversations [0.0]
本稿では,会話コンテキストを認知的視点から完全に理解するための新しい文脈推論ネットワーク(DialogueCRN)を提案する。
感情認知理論(Cognitive Theory of Emotion)に触発された我々は、感情の手がかりを抽出し統合するための多ターン推論モジュールを設計する。
推論モジュールは、人間の独特な認知的思考を模倣する直感的検索プロセスと意識的推論プロセスを反復的に実行する。
論文 参考訳(メタデータ) (2021-06-03T16:47:38Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。