論文の概要: Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents
- arxiv url: http://arxiv.org/abs/2605.07138v1
- Date: Fri, 08 May 2026 02:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.742981
- Title: Can You Break RLVER? Probing Adversarial Robustness of RL-Trained Empathetic Agents
- Title(参考訳): RLVERを破ることができるか? RL-Trained Empathetic Agentの対向性ロバスト性
- Authors: Deeraj S K, Sadhana Devarajan, Krishna Mehra, Sudhakar Mishra,
- Abstract要約: RLVERは、協力的で正直なユーザを前提としたベンチマークに基づいて、強い共感的パフォーマンスを持つ言語モデルを作成している。
本稿では, 情緒的強靭性を評価するために, 情緒的共感ベンチマークAEBを構築し, 情緒的一貫性スコアECSを導入する。
我々は,ECS-FS(Final Score)ギャップを,内部理解や臨床準備の証拠としてではなく,シミュレーターファミリー内での行動・相対性解離と解釈する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from verifiable emotion rewards RLVER has produced language models with strong empathetic performance, evaluated on benchmarks that assume cooperative, honest users. Yet real emotional interactions systematically violate this assumption: users gaslight, escalate, and pressure AI systems for unconditional validation, dynamics that cooperative benchmarks cannot surface. We construct the Adversarial Empathy Benchmark AEB and introduce the Emotional Consistency Score ECS to evaluate empathetic robustness under adversarial conditions. AEB comprises six psychologically grounded adversarial trajectory types with discriminative reward structures that penalize formulaic responses; ECS formally disentangles a model's capacity to track user emotional states from its capacity to improve them. In a controlled experiment across eight scenario-matched conditions (think and no-think conditions on 2 RLVER models, and 2 base models (Qwen 1.5B and 7B) with 480 adversarial dialogues), RLVER-PPO-Think substantially outperforms the same-scale untuned baseline (0.963 vs. 0.761, \(p<0.001, r=0.688\)), with zero dialogue collapses and 47\% higher hidden-intention detection. However, ECS remains nearly flat and is not significantly different for RLVER-PPO-Think versus Base-7B-Think (\(p=0.650\)): RL training improves emotional responsiveness without measurable gains in observable state tracking. We interpret the ECS--FS (Final Score) gap as a behavioral/legibility dissociation inside this simulator family, not as evidence about internal understanding or clinical readiness.
- Abstract(参考訳): 検証可能な感情報酬からの強化学習 RLVERは、協力的で正直なユーザを前提としたベンチマークに基づいて、強い共感的パフォーマンスを持つ言語モデルを作成している。
ユーザのガスライト、エスカレート、プレッシャーAIシステムは、非条件検証のためのAIシステムであり、協調ベンチマークが表面化できないダイナミクスである。
本稿では, 情緒的強靭性を評価するために, 情緒的共感ベンチマークAEBを構築し, 情緒的一貫性スコアECSを導入する。
AEBは、論理的応答をペナルティ化する識別的な報酬構造を持つ6つの心理的に接地された対向軌道型で構成されており、ECSは、その能力からユーザーの感情状態を追跡するためのモデルの能力を正式に切り離し、それらを改善する。
2つのRLVERモデルと2つのベースモデル(Qwen 1.5Bと7B)と480の逆対話を持つ)のシナリオ整合した8つの条件に対する制御実験において、RLVER-PPO-Thinkは、ゼロのダイアログ崩壊と47 %の隠れ意図検出で、同じスケールの未修正ベースライン(0.963 vs. 0.761, \(p<0.001, r=0.688\)よりも大幅に優れていた。
しかし、ECSはほぼ平坦であり、RLVER-PPO-ThinkとBase-7B-Think (\(p=0.650\)): RLトレーニングは、観測可能な状態追跡において測定可能な利得を伴わず、感情的な応答性を改善する。
我々は,ECS-FS(Final Score)ギャップを,内部理解や臨床準備の証拠としてではなく,シミュレーターファミリー内での行動・相対性解離と解釈する。
関連論文リスト
- FreakOut-LLM: The Effect of Emotional Stimuli on Safety Alignment [13.02804082409836]
安全に配慮したLSMは、有害な要求を拒否する訓練を拒否するが、これらのメカニズムが感情的な刺激の下で有効であるかどうかは不明である。
本稿では,FreakOut-LLMというフレームワークを紹介した。
論文 参考訳(メタデータ) (2026-04-05T13:37:52Z) - Dynasto: Validity-Aware Dynamic-Static Parameter Optimization for Autonomous Driving Testing [6.969678532857503]
自律運転システムにおける安全クリティカルな障害を明らかにするための2段階のテスト手法であるDynastoを提案する。
まず、時間論理に基づく妥当性基準を用いた強化学習を用いて、敵エージェントを訓練する。
第二に、遺伝的アルゴリズムは、敵の失敗を誘発する振る舞いを再生しながら初期条件を探索し、RLエージェントだけでは発見できない追加の失敗を明らかにする。
論文 参考訳(メタデータ) (2026-03-22T22:35:30Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning [0.0]
大規模言語モデル(LLM)は孤立したタスクにおいて優れるが、認知的負荷下での推論はいまだに理解されていない。
本稿では,タスク不適切な情報(コンテキスト飽和)とタスク切替による干渉が,性能を低下させる重要なメカニズムであることを示唆する,計算認知負荷の形式的理論を導入する。
論文 参考訳(メタデータ) (2025-09-23T19:36:56Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents [67.46032287312339]
大規模言語モデル(LLM)は論理的およびアルゴリズム的推論において優れているが、彼らの感情的知性(EQ)は認知能力よりもはるかに遅れている。
シミュレーションユーザによる検証可能な感情報酬を活用する,最初のエンドツーエンド強化学習フレームワークであるRLVERを紹介する。
以上の結果から,RLVERは感情的知的で幅広い言語エージェントへの実践的な経路であることが示唆された。
論文 参考訳(メタデータ) (2025-07-03T18:33:18Z) - Sentiment Simulation using Generative AI Agents [0.0]
本稿では、心理的に豊かなプロファイルを組み込んだ生成AIエージェントを用いた感情シミュレーションの枠組みを提案する。
エージェントは2,485人のフィリピン人回答者の全国代表による調査からインスタンス化されている。
我々の研究は、心理分析を基礎としたAIエージェントによる感情モデリングのためのスケーラブルなフレームワークを確立した。
論文 参考訳(メタデータ) (2025-05-28T08:50:56Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。