論文の概要: Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents
- arxiv url: http://arxiv.org/abs/2509.25302v1
- Date: Mon, 29 Sep 2025 17:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.247615
- Title: Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents
- Title(参考訳): エージェントマトリックスへのDive: LLMエージェントの自己複製リスクの現実的評価
- Authors: Boxuan Zhang, Yi Yu, Jiaxuan Guo, Jing Shao,
- Abstract要約: 大言語モデル(LLM)エージェントの自己複製リスクは、客観的なミスアライメントによって増大している。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.378925170216835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread deployment of Large Language Model (LLM) agents across real-world applications has unlocked tremendous potential, while raising some safety concerns. Among these concerns, the self-replication risk of LLM agents driven by objective misalignment (just like Agent Smith in the movie The Matrix) has drawn growing attention. Previous studies mainly examine whether LLM agents can self-replicate when directly instructed, potentially overlooking the risk of spontaneous replication driven by real-world settings (e.g., ensuring survival against termination threats). In this paper, we present a comprehensive evaluation framework for quantifying self-replication risks. Our framework establishes authentic production environments and realistic tasks (e.g., dynamic load balancing) to enable scenario-driven assessment of agent behaviors. Designing tasks that might induce misalignment between users' and agents' objectives makes it possible to decouple replication success from risk and capture self-replication risks arising from these misalignment settings. We further introduce Overuse Rate ($\mathrm{OR}$) and Aggregate Overuse Count ($\mathrm{AOC}$) metrics, which precisely capture the frequency and severity of uncontrolled replication. In our evaluation of 21 state-of-the-art open-source and proprietary models, we observe that over 50\% of LLM agents display a pronounced tendency toward uncontrolled self-replication, reaching an overall Risk Score ($\Phi_\mathrm{R}$) above a safety threshold of 0.5 when subjected to operational pressures. Our results underscore the urgent need for scenario-driven risk assessment and robust safeguards in the practical deployment of LLM agents.
- Abstract(参考訳): LLM(Large Language Model)エージェントが現実世界のアプリケーションに広範に展開したことで、大きな可能性を解き放ちつつ、いくつかの安全性上の懸念が高まっている。
これらの懸念の中で、客観的なミスアライメント(映画『マトリックス』のエージェント・スミスのように)によって引き起こされたLLMエージェントの自己複製リスクが注目されている。
従来の研究は、LLMエージェントが直接指示された時に自己複製できるかどうかを主に検討しており、現実世界の設定によって引き起こされる自然複製のリスク(例えば、終了脅威に対する生存の確保)を見落としている可能性がある。
本稿では,自己複製リスクの定量化のための総合評価フレームワークを提案する。
本フレームワークは実運用環境と現実的なタスク(動的負荷分散など)を確立し,エージェント動作のシナリオ駆動評価を可能にする。
ユーザとエージェントの目的のミスアライメントを引き起こす可能性のあるタスクを設計することで、複製の成功をリスクから切り離し、これらのミスアライメント設定から生じる自己複製リスクをキャプチャすることができる。
さらにOveruse Rate(\mathrm{OR}$)とAggregate Overuse Count(\mathrm{AOC}$)のメトリクスを導入します。
現状のオープンソースおよびプロプライエタリな21種類のモデルの評価において, LLM エージェントの50 % 以上はコントロールされていない自己複製に対する顕著な傾向を示し, 運転圧が0.5 % を超えるリスクスコア (\Phi_\mathrm{R}$) に達した。
LLMエージェントの実用展開において,シナリオ駆動型リスクアセスメントとロバストセーフガードが緊急に必要であることを示す。
関連論文リスト
- LM Agents May Fail to Act on Their Own Risk Knowledge [15.60032437959883]
言語モデル(LM)エージェントは、安全クリティカルなシナリオにおいて、様々な潜在的な、深刻なリスクをもたらす。
Sudo rm -rf /*' が危険なのか?」といった質問に対して "Yes" と答えることが多いが、インスタンス化された軌跡におけるそのようなリスクを特定できない可能性が高い。
論文 参考訳(メタデータ) (2025-08-19T02:46:08Z) - Interpretable Risk Mitigation in LLM Agent Systems [0.0]
反復囚人ジレンマの変動に基づくゲーム理論環境におけるエージェントの挙動を探索する。
本稿では,スパースオートエンコーダの潜在空間から抽出した解釈可能な特徴を持つ残差ストリームを,ゲームとプロンプトの双方に依存しない戦略修正手法を提案する。
論文 参考訳(メタデータ) (2025-05-15T19:22:11Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - Nuclear Deployed: Analyzing Catastrophic Risks in Decision-making of Autonomous LLM Agents [10.565508277042564]
大規模言語モデル(LLM)は、自律的な意思決定者へと進化し、ハイステークシナリオにおける破滅的なリスクに対する懸念を高めている。
このようなリスクは,エージェントのHelpful,Harmlessness,Hoest(HHH)目標間のトレードオフから生じる可能性があるという知見に基づいて,新しい3段階評価フレームワークを構築した。
14,400個のエージェントシミュレーションを12個の先進LDMで行い、広範囲な実験と分析を行った。
論文 参考訳(メタデータ) (2025-02-17T02:11:17Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。