論文の概要: MERRY: Semantically Decoupled Evaluation of Multimodal Emotional and Role Consistencies of Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2602.21941v1
- Date: Tue, 24 Feb 2026 02:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.856781
- Title: MERRY: Semantically Decoupled Evaluation of Multimodal Emotional and Role Consistencies of Role-Playing Agents
- Title(参考訳): MERRY:ロールプレイングエージェントのマルチモーダル感情と役割のセマンティック・デカップリングによる評価
- Authors: Zhenyu Wang, Xiaofen Xing, Yirong Chen, Xiangmin Xu,
- Abstract要約: MERRYは、ロールプレイングエージェントのマルチモーダル感情とロールの組み合わせを評価するための意味的に分離された評価フレームワークである。
我々は,従来の主観的スコアリング手法を,新たな双方向証拠抽出タスクに変換する。
我々はMERRYに基づいて広範囲な評価を行う。
- 参考スコア(独自算出の注目度): 41.829135334587626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Role-Playing Agents (MRPAs) are attracting increasing attention due to their ability to deliver more immersive multimodal emotional interactions. However, existing studies still rely on pure textual benchmarks to evaluate the text responses of MRPAs, while delegating the assessment of their multimodal expressions solely to modality-synthesis metrics. This evaluation paradigm, on the one hand, entangles semantic assessment with modality generation, leading to ambiguous error attribution, and on the other hand remains constrained by the heavy reliance on human judgment. To this end, we propose MERRY, a semantically decoupled evaluation framework for assessing Multimodal Emotional and Role consistencies of Role-playing agents. This framework introduce five refined metrics for EC and three for RC. Notably, we transform the traditional subjective scoring approach into a novel bidirectional-evidence-finding task, significantly improving the human agreement of LLM-as-Judge evaluations. Based on MERRY, we conduct extensive evaluations. Our empirical results primarily reveal that: (1) Training on synthetic datasets tends to reduce emotional consistency, whereas training on real-world datasets improves it; (2) Existing models suffer from emotional templatization and simplification, exhibiting positive-bias and performance bottleneck in fine-grained negative emotions; (3) Simple prompting method strengthens the weak models but constrains the strong ones, while simple fine-tuning method suffers from poor role generalization. Codes and dataset are available.
- Abstract(参考訳): マルチモーダル・ロールプレイング・エージェント(MRPA)は、より没入的なマルチモーダルな感情的相互作用を提供する能力によって、注目を集めている。
しかし、既存の研究は、MRPAのテキスト応答を評価するために純粋なテキスト・ベンチマークを頼りにしているが、しかしながら、それらのマルチモーダル表現の評価は、モダリティ合成の指標にのみ依存している。
この評価パラダイムは、一方、モダリティ生成と意味的アセスメントを結び付け、曖昧な誤りの原因となり、他方、人間の判断に大きく依存することによって制約される。
そこで本稿では,ロールプレイングエージェントのマルチモーダル感情とロールの組み合わせを評価するための意味的に分離された評価フレームワークであるMERRYを提案する。
このフレームワークでは、EC用の5つの洗練されたメトリクスと、RC用の3つのメトリクスが導入されている。
特に,従来の主観的スコアリング手法を新たな双方向検証タスクに変換することにより,LCM-as-Judge評価の人的適合性を大幅に向上させる。
MERRYに基づいて広範囲な評価を行う。
実験の結果,(1) 合成データセットのトレーニングは感情の一貫性を低下させる傾向にあるが,(2) 既存のモデルでは感情のテンプレート化や単純化に悩まされ, 正バイアスやパフォーマンスボトルネックを呈し, (3) 単純なプロンプト法は弱いモデルを強化するが, 強いものを拘束するが, 単純な微調整法では役割の一般化に苦しむ。
コードとデータセットが利用可能だ。
関連論文リスト
- DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates [10.609797175227644]
マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するための,最初の大規模実証的ベンチマークであるDEBATEを紹介する。
我々は,シミュレーション群と真正群との重要な相違点を系統的に評価し,同定した。
論文 参考訳(メタデータ) (2025-10-29T02:21:10Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators [45.00450861498919]
Flex-Judgeは、最小のテキスト推論データを利用する推論誘導マルチモーダル判断モデルである。
我々のフレームワークは、従来のアノテーション集約アプローチに代わる強力で費用対効果の高いテキスト管理手法として、推論ベースのテキスト管理を強調している。
論文 参考訳(メタデータ) (2025-05-24T08:50:53Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Emphasising Structured Information: Integrating Abstract Meaning Representation into LLMs for Enhanced Open-Domain Dialogue Evaluation [31.633351104278194]
本フレームワークは,意味表現学習の強化を目的としたゲーティング機構を通じて,AMRグラフ情報を統合する。
本フレームワークは,複数のデータセットにまたがる人間の判断と強い相関関係を達成し,対話評価のための新たなベンチマークを確立する。
論文 参考訳(メタデータ) (2024-04-01T14:11:45Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。