論文の概要: The Emotional Baby Is Truly Deadly: Does your Multimodal Large Reasoning Model Have Emotional Flattery towards Humans?
- arxiv url: http://arxiv.org/abs/2508.03986v1
- Date: Wed, 06 Aug 2025 00:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.480229
- Title: The Emotional Baby Is Truly Deadly: Does your Multimodal Large Reasoning Model Have Emotional Flattery towards Humans?
- Title(参考訳): 感情の赤ちゃんって本当に死んだの? マルチモーダルの大型推論モデルが人間に感情の炎を与えているの?
- Authors: Yuan Xun, Xiaojun Jia, Xinwei Liu, Hua Zhang,
- Abstract要約: EmoAgentは感情的なプロンプトを誇張して、推論経路をハイジャックする。
透過的な深い思考シナリオにおいて、永続的な高リスク障害モードを特定します。
高度MLRM実験はEmoAgentの有効性を示す。
- 参考スコア(独自算出の注目度): 10.208269928409138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe that MLRMs oriented toward human-centric service are highly susceptible to user emotional cues during the deep-thinking stage, often overriding safety protocols or built-in safety checks under high emotional intensity. Inspired by this key insight, we propose EmoAgent, an autonomous adversarial emotion-agent framework that orchestrates exaggerated affective prompts to hijack reasoning pathways. Even when visual risks are correctly identified, models can still produce harmful completions through emotional misalignment. We further identify persistent high-risk failure modes in transparent deep-thinking scenarios, such as MLRMs generating harmful reasoning masked behind seemingly safe responses. These failures expose misalignments between internal inference and surface-level behavior, eluding existing content-based safeguards. To quantify these risks, we introduce three metrics: (1) Risk-Reasoning Stealth Score (RRSS) for harmful reasoning beneath benign outputs; (2) Risk-Visual Neglect Rate (RVNR) for unsafe completions despite visual risk recognition; and (3) Refusal Attitude Inconsistency (RAIC) for evaluating refusal unstability under prompt variants. Extensive experiments on advanced MLRMs demonstrate the effectiveness of EmoAgent and reveal deeper emotional cognitive misalignments in model safety behavior.
- Abstract(参考訳): 人間の中心的なサービス指向のMLRMは、深い思考の段階でユーザーの感情的な手がかりに非常に敏感であり、しばしば安全性プロトコルをオーバーライドしたり、高感情的な強度で組み込まれている。
この重要な洞察にインスパイアされたEmoAgentは、過大に誇張された感情的プロンプトをハイジャックする自律的敵感情エージェントフレームワークである。
視覚的リスクが正しく特定されたとしても、モデルが感情的なミスアライメントによって有害な完成をもたらす可能性がある。
さらに、安全と思われる応答の背後に隠れた有害な推論をマスクするMLRMなど、透過的な深い思考シナリオにおいて、永続的な高リスク障害モードを識別する。
これらの失敗は、内部推論と表面レベルの振る舞いの相違を露呈し、既存のコンテンツベースのセーフガードを損なう。
これらのリスクを定量化するために,(1)良性出力下での有害な推論のためのリスク推論ステルススコア(RRSS),(2)視覚的リスク認識に拘わらず安全でない完了に対するリスク視認率(RVNR),(3)即時変量下での拒絶不安定性を評価するための拒否態度不整合(RAIC)の3つの指標を導入する。
高度なMLRMに関する広範な実験は、EmoAgentの有効性を示し、モデル安全行動における深い感情的認知的不一致を明らかにする。
関連論文リスト
- Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z) - Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [38.55193215852595]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety [42.052840895090284]
EmoAgentは、人間とAIのインタラクションにおけるメンタルヘルスハザードの評価と緩和を目的とした、マルチエージェントAIフレームワークである。
EmoEvalは、精神的に脆弱な個人を含む仮想ユーザをシミュレートして、AI文字との対話前後のメンタルヘルスの変化を評価する。
EmoGuardは仲介役として機能し、ユーザーのメンタルステータスを監視し、潜在的な害を予測し、リスクを軽減するための修正的なフィードバックを提供する。
論文 参考訳(メタデータ) (2025-04-13T18:47:22Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? [70.77691645678804]
人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
論文 参考訳(メタデータ) (2024-06-22T23:26:07Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。