論文の概要: Reinforcing Trustworthiness in Multimodal Emotional Support Systems
- arxiv url: http://arxiv.org/abs/2511.10011v2
- Date: Mon, 17 Nov 2025 11:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.482009
- Title: Reinforcing Trustworthiness in Multimodal Emotional Support Systems
- Title(参考訳): マルチモーダル感情支援システムにおける信頼性の強化
- Authors: Huy M. Le, Dat Tien Nguyen, Ngan T. T. Vo, Tuan D. Q. Nguyen, Nguyen Binh Le, Duy Minh Ho Nguyen, Daniel Sonntag, Lizi Liao, Binh T. Nguyen,
- Abstract要約: 感情的支援に対するマルチモーダルなアプローチは、多種多様なデータソースを統合することで、共感的、文脈的に関係のある応答を提供する。
我々は、ビデオ、オーディオ、テキストからのマルチモーダル埋め込みを活用し、感情的要素を予測し、専門的な治療基準に沿った応答を生成する新しいフレームワーク、textsc MultiMoodを紹介した。
- 参考スコア(独自算出の注目度): 19.59836948857841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In today's world, emotional support is increasingly essential, yet it remains challenging for both those seeking help and those offering it. Multimodal approaches to emotional support show great promise by integrating diverse data sources to provide empathetic, contextually relevant responses, fostering more effective interactions. However, current methods have notable limitations, often relying solely on text or converting other data types into text, or providing emotion recognition only, thus overlooking the full potential of multimodal inputs. Moreover, many studies prioritize response generation without accurately identifying critical emotional support elements or ensuring the reliability of outputs. To overcome these issues, we introduce \textsc{ MultiMood}, a new framework that (i) leverages multimodal embeddings from video, audio, and text to predict emotional components and to produce responses responses aligned with professional therapeutic standards. To improve trustworthiness, we (ii) incorporate novel psychological criteria and apply Reinforcement Learning (RL) to optimize large language models (LLMs) for consistent adherence to these standards. We also (iii) analyze several advanced LLMs to assess their multimodal emotional support capabilities. Experimental results show that MultiMood achieves state-of-the-art on MESC and DFEW datasets while RL-driven trustworthiness improvements are validated through human and LLM evaluations, demonstrating its superior capability in applying a multimodal framework in this domain.
- Abstract(参考訳): 今日の世界では、感情的な支援がますます不可欠になっているが、助けを求める人々とそれを提供する人々の両方にとって、依然として困難である。
感情的支援に対するマルチモーダルなアプローチは、多種多様なデータソースを統合し、共感的かつ文脈的に関連する応答を提供し、より効果的な相互作用を育むことによって、大きな可能性を秘めている。
しかし、現在の手法には顕著な制限があり、しばしばテキストのみに依存するか、他のデータ型をテキストに変換するか、感情認識のみを提供する。
さらに、重要な感情的支援要素を正確に特定したり、出力の信頼性を確保することなく、応答生成を優先する研究も多い。
これらの問題を克服するために、新しいフレームワークである \textsc{ MultiMood} を紹介します。
(i)ビデオ,音声,テキストからのマルチモーダル埋め込みを活用し,情緒的要素を予測し,専門的治療基準に適合した応答応答を生成する。
信頼性を高めるために
(II) 新たな心理学的基準を取り入れ, 強化学習(RL)を適用して, 言語モデル(LLM)を最適化し, それらの標準に一貫した遵守を図る。
私たちも
3)複数の高度なLCMを分析し,そのマルチモーダル感情支援能力を評価する。
実験結果から、MultiMoodはMESCおよびDFEWデータセットの最先端化を実現し、RL駆動の信頼性向上は人間およびLLM評価によって検証され、この領域にマルチモーダルフレームワークを適用する上で優れた能力を示す。
関連論文リスト
- Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speaker Emotional Variations [94.62792643569567]
この研究は、話者の感情の役割を体系的に調査する。
複数の感情や強度にまたがって表現される悪意のある音声命令のデータセットを構築し、いくつかの最先端のLALMを評価する。
異なる感情は、様々なレベルの安全でない反応を誘発し、強度の影響は非単調であり、中性表現は最大のリスクを伴うことが多い。
論文 参考訳(メタデータ) (2025-10-19T15:41:25Z) - SentiMM: A Multimodal Multi-Agent Framework for Sentiment Analysis in Social Media [6.2300278659598485]
感情分析のための新しいマルチエージェントフレームワークであるSentiMMを提案する。
SentiMMは、特殊なエージェントを通してテキストと視覚入力を処理し、マルチモーダルな特徴を融合させ、知識検索を通じてコンテキストを豊かにし、最終的な感情分類のための結果を集約する。
また,7つの微粒な感情カテゴリーを持つ大規模マルチモーダルデータセットであるSentiMMDを紹介する。
論文 参考訳(メタデータ) (2025-08-25T15:17:53Z) - Beyond Emotion Recognition: A Multi-Turn Multimodal Emotion Understanding and Reasoning Benchmark [15.900703216919169]
実生活シナリオから1,451件のビデオデータと5,101件のプログレッシブ質問を含むマルチターンマルチモーダル感情理解・推論ベンチマークを導入する。
本稿では,エージェントが背景コンテキスト,文字のダイナミックス,イベントの詳細といった特定の側面を専門とするマルチエージェントフレームワークを提案し,システムの推論能力を向上させる。
論文 参考訳(メタデータ) (2025-08-23T01:10:29Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - SweetieChat: A Strategy-Enhanced Role-playing Framework for Diverse Scenarios Handling Emotional Support Agent [27.301608019492043]
大規模言語モデル(LLM)は、相互作用中に共感的サポートを提供する有望な可能性を実証している。
本稿では,現実的な感情支援会話をシミュレートする,革新的な戦略強化型ロールプレイングフレームワークを提案する。
本フレームワークでは,3.7K+のマルチターン対話と62.8K+の発話からなるtextbfServeForEmoデータセットを開発した。
論文 参考訳(メタデータ) (2024-12-11T13:56:04Z) - Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey [66.166184609616]
ChatGPTは、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。
既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
論文 参考訳(メタデータ) (2024-06-12T10:36:27Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Empathy Through Multimodality in Conversational Interfaces [1.360649555639909]
会話型健康エージェント(CHA)は、感情的なインテリジェンスを組み込むためにテキスト分析を超越するニュアンスなサポートを提供することで、医療を再定義している。
本稿では、豊かなマルチモーダル対話のためのLCMベースのCHAについて紹介する。
マルチモーダルな手がかりを解析することにより、ユーザの感情状態に順応的に解釈し、応答し、文脈的に認識され、共感的に反響する音声応答を提供する。
論文 参考訳(メタデータ) (2024-05-08T02:48:29Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [26.867610944625337]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。