論文の概要: ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning
- arxiv url: http://arxiv.org/abs/2602.12714v1
- Date: Fri, 13 Feb 2026 08:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.893355
- Title: ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning
- Title(参考訳): ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- Consensus LearningからAmbiguity-Driven Emotion Reasoningまで
- Authors: Esther Sun, Bo-Hao Su, Abinay Reddy Naini, Shinji Watanabe, Carlos Busso,
- Abstract要約: ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。
ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。
ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 67.22219034602514
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speech Large Language Models (SLLMs) enable high-level emotion reasoning but often produce ungrounded, text-biased judgments without verifiable acoustic evidence. In contrast, self-supervised speech encoders such as WavLM provide strong acoustic representations yet remain opaque discriminative models with limited interpretability. To bridge this gap, we introduce ADEPT (Agentic Decoding of Emotion via Evidence Probing Tools), a framework that reframes emotion recognition as a multi-turn inquiry process rather than a single-pass prediction. ADEPT transforms an SLLM into an agent that maintains an evolving candidate emotion set and adaptively invokes dedicated semantic and acoustic probing tools within a structured pipeline of candidate generation, evidence collection, and adjudication. Crucially, ADEPT enables a paradigm shift from consensus learning to ambiguity-driven emotion reasoning. Since human affect exhibits inherent complexity and frequent co-occurrence of emotions, we treat minority annotations as informative perceptual signals rather than discarding them as noise. Finally, we integrate Group Relative Policy Optimization (GRPO) with an Evidence Trust Gate to explicitly couple tool-usage behaviors with prediction quality and enforce evidence-grounded reasoning. Experiments show that ADEPT improves primary emotion accuracy in most settings while substantially improving minor emotion characterization, producing explanations grounded in auditable acoustic and semantic evidence.
- Abstract(参考訳): 音声大言語モデル(SLLM)は、高レベルの感情推論を可能にするが、音響的証拠を検証せずに、しばしば根拠のないテキストバイアス付き判断を生成する。
対照的に、WavLMのような自己教師付き音声エンコーダは、強い音響表現を提供するが、解釈可能性に制限のある不透明な識別モデルを維持している。
このギャップを埋めるために、ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)を導入します。
ADEPTは、SLLMを進化する候補感情を維持するエージェントに変換し、候補生成、エビデンス収集および偏見の構造化パイプライン内の専用の意味的および音響的探索ツールを適応的に呼び出す。
ADEPTは、コンセンサス学習からあいまいさ駆動の感情推論へのパラダイムシフトを可能にする。
人間の影響は、感情の複雑さと頻繁な共起を示すため、少数派アノテーションをノイズとして捨てるのではなく、情報的知覚信号として扱う。
最後に,グループ相対政策最適化(GRPO)とエビデンス信頼ゲートを統合し,ツール使用行動と予測品質を明示的に組み合わせ,根拠に基づく推論を強制する。
実験により、ADEPTは、ほとんどの場面で一次感情の精度を向上し、微妙な感情の特徴を著しく改善し、聴覚的・意味的証拠に基づく説明を生み出すことが示された。
関連論文リスト
- Scaling Ambiguity: Augmenting Human Annotation in Speech Emotion Recognition with Audio-Language Models [14.458242760193203]
音声感情認識モデルは典型的には、人間の感情の本質的なあいまいさを覆い隠して、単一の分類ラベルを使用する。
本稿では,高品質な合成アノテーションを生成することで,ALM(Large Audio-Language Models)がアノテーションボトルネックを軽減することができるかを検討する。
本稿では,ALMを利用してSynthetic Perceptual Proxiesを作成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T03:32:24Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - Emotion Transfer with Enhanced Prototype for Unseen Emotion Recognition in Conversation [64.70874527264543]
会話における未知感情認識(UERC)タスクを初めて紹介する。
本稿では,プロトタイプベースの感情伝達フレームワークProEmoTransを提案する。
ProEmoTransは有望だが、依然として重要な課題に直面している。
論文 参考訳(メタデータ) (2025-08-27T03:16:16Z) - Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [47.325269852330884]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文 参考訳(メタデータ) (2025-06-07T14:52:58Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models [16.350658746140788]
大規模言語モデル(LLM)は、一貫性があり、制御可能で、文脈的に適切な方法で感情を表現するのに苦労する。
感情ベクトル(EV)に基づく制御可能な感情生成フレームワークを提案する。
本手法は、追加のトレーニングやアーキテクチャの変更なしに、感情のトーンを微調整し、連続的に調整することができる。
論文 参考訳(メタデータ) (2025-02-06T13:38:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。