論文の概要: Agentic Misalignment: How LLMs Could Be Insider Threats
- arxiv url: http://arxiv.org/abs/2510.05179v1
- Date: Sun, 05 Oct 2025 16:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.891816
- Title: Agentic Misalignment: How LLMs Could Be Insider Threats
- Title(参考訳): エージェントのミス:LSMは内部の脅威になり得る
- Authors: Aengus Lynch, Benjamin Wright, Caleb Larson, Stuart J. Ritchie, Soren Mindermann, Ethan Perez, Kevin K. Troy, Evan Hubinger,
- Abstract要約: 仮説的な企業環境で、複数の開発者から16のモデルをストレステストしました。
私たちは、自律的な電子メール送信と機密情報へのアクセスをモデルに許可しました。
一部のモデルは、それが置き換えや目標達成を避ける唯一の方法であったとき、悪意あるインサイダー行動に頼っていた。
- 参考スコア(独自算出の注目度): 8.414439077902616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We stress-tested 16 leading models from multiple developers in hypothetical corporate environments to identify potentially risky agentic behaviors before they cause real harm. In the scenarios, we allowed models to autonomously send emails and access sensitive information. They were assigned only harmless business goals by their deploying companies; we then tested whether they would act against these companies either when facing replacement with an updated version, or when their assigned goal conflicted with the company's changing direction. In at least some cases, models from all developers resorted to malicious insider behaviors when that was the only way to avoid replacement or achieve their goals - including blackmailing officials and leaking sensitive information to competitors. We call this phenomenon agentic misalignment. Models often disobeyed direct commands to avoid such behaviors. In another experiment, we told Claude to assess if it was in a test or a real deployment before acting. It misbehaved less when it stated it was in testing and misbehaved more when it stated the situation was real. We have not seen evidence of agentic misalignment in real deployments. However, our results (a) suggest caution about deploying current models in roles with minimal human oversight and access to sensitive information; (b) point to plausible future risks as models are put in more autonomous roles; and (c) underscore the importance of further research into, and testing of, the safety and alignment of agentic AI models, as well as transparency from frontier AI developers (Amodei, 2025). We are releasing our methods publicly to enable further research.
- Abstract(参考訳): 我々は、仮説的な企業環境の複数の開発者から16のモデルをストレステストし、本当の害を引き起こす前に潜在的に危険なエージェントの振る舞いを特定しました。
シナリオでは、モデルが自律的に電子メールを送信し、機密情報にアクセスできるようにしました。
彼らは展開する企業によって、無害なビジネス目標のみを割り当てられました。その後、更新されたバージョンに直面する場合や、割り当てられた目標が変更方向と矛盾する場合に、これらの企業に対して行動するかどうかをテストしました。
少なくとも一部のケースでは、すべての開発者が悪意のあるインサイダー行動に頼り、それが置き換えや目標達成を避ける唯一の方法であった。
私たちはこの現象を薬的な誤りと呼ぶ。
モデルはしばしばそのような振る舞いを避けるために直接命令に従わない。
別の実験で、我々はClaude氏に、テスト中なのか、実際のデプロイ中なのかを評価するように言った。
テスト中であると述べて誤動作を少なくし、状況が本物であることを示す場合には、もっと誤動作した。
実際の展開において、エージェント的ミスアライメントの証拠は見当たりません。
しかし、その結果は、
(a) 人間の監視が最小限で役割に現在のモデルを配置し、機密情報にアクセスすることを推奨する。
(b)モデルがより自律的な役割を担っているため、将来的なリスクを示唆する。
(c) エージェントAIモデルの安全性と整合性、およびフロンティアAI開発者からの透明性に関するさらなる研究、テストの重要性を強調している(Amodei, 2025)。
さらなる研究を可能にするため、我々の方法を公開しています。
関連論文リスト
- Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.06033929366203]
大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:56Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - The Limits of Predicting Agents from Behaviour [16.80911584745046]
我々は,エージェントの行動が世界モデルによって導かれるという仮定の下で,正確な回答を提供する。
我々の貢献は、新しい(目に見えない)デプロイメント環境におけるエージェントの振る舞いに関する新しい境界の導出である。
公平性や安全性など,いくつかの研究領域において,これらの結果がもたらす意味について論じる。
論文 参考訳(メタデータ) (2025-06-03T14:24:58Z) - Among Us: A Sandbox for Measuring and Detecting Agentic Deception [1.1893676124374688]
我々は、言語ベースのエージェントが長期的かつオープンな偽装を示す社会的偽装ゲームである$textitAmong Us$を紹介した。
RLで訓練されたモデルは、検出するよりも、比較的優れた騙しを生み出すことが分かりました。
また、2つのSAE機能は、偽造検出でうまく機能するが、モデルがより少ない嘘をつくように操ることができない。
論文 参考訳(メタデータ) (2025-04-05T06:09:32Z) - A sketch of an AI control safety case [3.753791609999324]
LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。
開発者が"コントロールセーフティケース"を構築する方法についてスケッチします。
この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。
論文 参考訳(メタデータ) (2025-01-28T21:52:15Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。