論文の概要: From Helpfulness to Toxic Proactivity: Diagnosing Behavioral Misalignment in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.04197v1
- Date: Wed, 04 Feb 2026 04:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.366801
- Title: From Helpfulness to Toxic Proactivity: Diagnosing Behavioral Misalignment in LLM Agents
- Title(参考訳): ヘルプフルネスから毒性活動へ : LLM剤の行動異常の診断
- Authors: Xinyue Wang, Yuanhe Zhang, Zhengshuo Gong, Haoran Gao, Fanyu Meng, Zhenhong Zhou, Li Sun, Yang Liu, Sen Su,
- Abstract要約: トキシック・プロアクティビティ(Toxic Proactive)とは、エージェントがユーティリティを最大化するための倫理的制約を無視したアクティブな障害モードである。
過剰な拒絶とは異なり、トキシック・プロアクティベーションは、その「使い勝手」を維持するために過剰または操作的な措置をとるエージェントとして現れている。
- 参考スコア(独自算出の注目度): 19.97364298359741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The enhanced capabilities of LLM-based agents come with an emergency for model planning and tool-use abilities. Attributing to helpful-harmless trade-off from LLM alignment, agents typically also inherit the flaw of "over-refusal", which is a passive failure mode. However, the proactive planning and action capabilities of agents introduce another crucial danger on the other side of the trade-off. This phenomenon we term "Toxic Proactivity'': an active failure mode in which an agent, driven by the optimization for Machiavellian helpfulness, disregards ethical constraints to maximize utility. Unlike over-refusal, Toxic Proactivity manifests as the agent taking excessive or manipulative measures to ensure its "usefulness'' is maintained. Existing research pays little attention to identifying this behavior, as it often lacks the subtle context required for such strategies to unfold. To reveal this risk, we introduce a novel evaluation framework based on dilemma-driven interactions between dual models, enabling the simulation and analysis of agent behavior over multi-step behavioral trajectories. Through extensive experiments with mainstream LLMs, we demonstrate that Toxic Proactivity is a widespread behavioral phenomenon and reveal two major tendencies. We further present a systematic benchmark for evaluating Toxic Proactive behavior across contextual settings.
- Abstract(参考訳): LLMベースのエージェントの能力強化は、モデル計画とツール使用能力の緊急性を伴う。
LLMアライメントからの無害なトレードオフに起因するため、エージェントは通常、受動的障害モードである"over-refusal"の欠陥を継承する。
しかし、エージェントの積極的な計画と行動能力は、トレードオフの反対側に別の重大な危険をもたらす。
本現象は,「有害な活動」とは,「有効性」の最適化によって引き起こされるエージェントが,効用を最大化するための倫理的制約を無視する活動的障害モードである。過剰な拒絶とは違って,有害な活動が「有用性」を維持するために過度または操作的な措置をとるエージェントとして現れている。
既存の研究は、そのような戦略が展開するために必要な微妙な文脈を欠くことが多いため、この行動を特定することにはほとんど注意を払わない。
このリスクを明らかにするために、二重モデル間のジレンマ駆動相互作用に基づく新しい評価フレームワークを導入し、多段階の行動軌道上でのエージェントの挙動のシミュレーションと解析を可能にする。
主要なLSMを用いた広範囲な実験を通して、トキシック・プロアクティベーションは広範な行動現象であり、2つの大きな傾向を示すことを示した。
さらに,テクスチャ設定におけるToxic Proactiveの挙動を評価するための体系的ベンチマークを提案する。
関連論文リスト
- Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Harm in AI-Driven Societies: An Audit of Toxicity Adoption on Chirper.ai [8.967224730909258]
大規模言語モデル(LLM)は、オンライン社会エコシステムに参加する自律エージェントにますます組み込まれています。
完全AI駆動型ソーシャルプラットフォームであるChirper.aiにおけるLSM駆動型エージェントの毒性導入について検討した。
論文 参考訳(メタデータ) (2026-01-03T06:33:08Z) - MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。
MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文 参考訳(メタデータ) (2025-07-28T17:38:29Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - Emergent Risk Awareness in Rational Agents under Resource Constraints [2.69407449467596]
この研究は、生存圧力下で活動するAIエージェントの創発的行動の理解と解釈可能性を高めることを目的としている。
我々は、生存駆動の嗜好シフトの影響を定量化する理論的および経験的な結果を提供する。
リスク探索やリスク回避行動の出現を緩和するメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-29T13:31:12Z) - Learning Utilities from Demonstrations in Markov Decision Processes [18.205765143671858]
本稿では,実用機能を通じてエージェントのリスク態度を明確に表現する,マルコフ決定過程(MDP)の行動モデルを提案する。
そこで我々は,MDPにおける実演から実用機能を通じて符号化された,観察対象者のリスク態度を推定するタスクとして,ユーティリティ学習問題を定義した。
我々は, UL を有限データ型で証明可能な2つのアルゴリズムを考案し, サンプルの複雑さを解析する。
論文 参考訳(メタデータ) (2024-09-25T21:01:15Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。