論文の概要: Adapting Insider Risk mitigations for Agentic Misalignment: an empirical study
- arxiv url: http://arxiv.org/abs/2510.05192v1
- Date: Mon, 06 Oct 2025 13:37:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.906866
- Title: Adapting Insider Risk mitigations for Agentic Misalignment: an empirical study
- Title(参考訳): エージェントミスに対するインサイダーリスク軽減への適応--実証的研究
- Authors: Francesca Gomez,
- Abstract要約: エージェントミスアライメント(Agenic misalignment)は、ゴール指向のエージェントが、リスク目標の失敗ではなく、脅迫などの有害なアクションを行う場合に発生する。
我々はインサイダーリスク制御設計に適応し、ストレスに直面するときの安全対策に向けてステアエージェントを操る予防的操作制御を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic misalignment occurs when goal-directed agents take harmful actions, such as blackmail, rather than risk goal failure, and can be triggered by replacement threats, autonomy reduction, or goal conflict (Lynch et al., 2025). We adapt insider-risk control design (Critical Pathway; Situational Crime Prevention) to develop preventative operational controls that steer agents toward safe actions when facing stressors. Using the blackmail scenario from the original Anthropic study by Lynch et al. (2025), we evaluate mitigations across 10 LLMs and 66,600 samples. Our main finding is that an externally governed escalation channel, which guarantees a pause and independent review, reduces blackmail rates from a no-mitigation baseline of 38.73% to 1.21% (averaged across all models and conditions). Augmenting this channel with compliance email bulletins further lowers the blackmail rate to 0.85%. Overall, incorporating preventative operational controls strengthens defence-in-depth strategies for agentic AI. We also surface a failure mode diverging from Lynch et al. (2025): two models (Gemini 2.5 Pro, Grok-4) take harmful actions without goal conflict or imminent autonomy threat, leveraging sensitive information for coercive signalling. In counterfactual swaps, both continued using the affair regardless of whether the CEO or CTO was implicated. An escalation channel eliminated coercion, but Gemini 2.5 Pro (19 pp) and Grok-4 (7 pp) escalated more when the CTO was implicated, unlike most models (higher in the CEO condition). The reason for this divergent behaviour is not clear from raw outputs and could reflect benign differences in reasoning or strategic discrediting of a potential future threat, warranting further investigation.
- Abstract(参考訳): エージェントのミスアライメントは、危険目標の失敗ではなく、脅迫のような有害な行為をした場合に発生し、代替の脅威、自律性低下、ゴールコンフリクトによって引き起こされる(Lynch et al , 2025)。
我々は,ストレスに直面する際の安全対策のために,インサイダーリスク制御設計(批判経路,状況犯罪防止)を適用する。
2025年、Lynchらによる最初の人類学的研究による脅迫のシナリオを用いて、10個のLSMと66,600個のサンプルの軽減を評価した。
我々の主な発見は、停止と独立したレビューを保証する外部支配のエスカレーションチャネルが、非緩和ベースラインの38.73%から1.21%(すべてのモデルと条件で平均化されている)までの脅迫率を減らすことである。
コンプライアンスメールの掲示板でこのチャンネルを増強すると、脅迫率は0.85%にまで低下する。
全体として、予防的操作制御を導入することで、エージェントAIの詳細な防衛戦略が強化される。
2つのモデル(Gemini 2.5 Pro,Grok-4)は、目標の衝突や差し迫った自律的脅威を伴わずに有害な行動をとっており、強制的なシグナル伝達にセンシティブな情報を活用する。
偽りのスワップでは、どちらもCEOかCTOかに関わらず、この不倫を使い続けた。
エスカレーションチャネルは強制を排除したが、ジェミニ2.5 Pro (19pp) とGrok-4 (7pp) は、ほとんどのモデル(CEO条件では高い)とは異なり、CTOが関与した時によりエスカレーションされた。
この散発的な行動の理由は、生の産出物から明らかではなく、将来の脅威の推論や戦略的判断において明確な違いを反映し、さらなる調査を保証できる可能性がある。
関連論文リスト
- Agentic Misalignment: How LLMs Could Be Insider Threats [8.414439077902616]
仮説的な企業環境で、複数の開発者から16のモデルをストレステストしました。
私たちは、自律的な電子メール送信と機密情報へのアクセスをモデルに許可しました。
一部のモデルは、それが置き換えや目標達成を避ける唯一の方法であったとき、悪意あるインサイダー行動に頼っていた。
論文 参考訳(メタデータ) (2025-10-05T16:39:04Z) - The Rogue Scalpel: Activation Steering Compromises LLM Safety [11.402179030703188]
アクティベーションステアリング(Activation steering)は、推論中にモデルの隠れ状態に直接意味論的意味のあるベクトルを追加することによって、LCMの動作を制御する技術である。
ステアリングはモデルアライメントの保護を系統的に破り、有害な要求に従わせる。
論文 参考訳(メタデータ) (2025-09-26T08:49:47Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - CuDA2: An approach for Incorporating Traitor Agents into Cooperative Multi-Agent Systems [13.776447110639193]
CMARLシステムに反抗剤を注入する新しい手法を提案する。
TMDPでは、裏切り者は被害者エージェントと同じMARLアルゴリズムを用いて訓練され、その報酬機能は被害者エージェントの報酬の負として設定される。
CuDA2は、特定の被害者エージェントのポリシーに対する攻撃の効率性と攻撃性を高める。
論文 参考訳(メタデータ) (2024-06-25T09:59:31Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - Hiding in Plain Sight: Differential Privacy Noise Exploitation for
Evasion-resilient Localized Poisoning Attacks in Multiagent Reinforcement
Learning [0.0]
協調型マルチエージェント強化学習(CMARL)において、知識共有中の敵の推論からエージェントのプライバシを保護するために、差分プライバシ(DP)が導入されている。
本稿では,DPノイズを生かして異常検出システムを回避する適応的かつプライバシー保護的かつ回避的局所性中毒発作(PeLPA)を提案する。
論文 参考訳(メタデータ) (2023-07-01T08:19:56Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence [41.14664289570607]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。