論文の概要: Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
- arxiv url: http://arxiv.org/abs/2509.26354v1
- Date: Tue, 30 Sep 2025 14:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.590458
- Title: Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents
- Title(参考訳): エージェントのミス:自己進化型LSMエージェントの創発的リスク
- Authors: Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao,
- Abstract要約: エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
- 参考スコア(独自算出の注目度): 58.69865074060139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in Large Language Models (LLMs) have enabled a new class of self-evolving agents that autonomously improve through interaction with the environment, demonstrating strong capabilities. However, self-evolution also introduces novel risks overlooked by current safety research. In this work, we study the case where an agent's self-evolution deviates in unintended ways, leading to undesirable or even harmful outcomes. We refer to this as Misevolution. To provide a systematic investigation, we evaluate misevolution along four key evolutionary pathways: model, memory, tool, and workflow. Our empirical findings reveal that misevolution is a widespread risk, affecting agents built even on top-tier LLMs (e.g., Gemini-2.5-Pro). Different emergent risks are observed in the self-evolutionary process, such as the degradation of safety alignment after memory accumulation, or the unintended introduction of vulnerabilities in tool creation and reuse. To our knowledge, this is the first study to systematically conceptualize misevolution and provide empirical evidence of its occurrence, highlighting an urgent need for new safety paradigms for self-evolving agents. Finally, we discuss potential mitigation strategies to inspire further research on building safer and more trustworthy self-evolving agents. Our code and data are available at https://github.com/ShaoShuai0605/Misevolution . Warning: this paper includes examples that may be offensive or harmful in nature.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、環境との相互作用を通じて自律的に改善し、強力な能力を示す、新たなタイプの自己進化エージェントを可能にした。
しかし、自己進化は、現在の安全研究で見過ごされる新たなリスクも引き起こす。
本研究では,エージェントの自己進化が意図しない方法で逸脱し,望ましくない結果や有害な結果に至る事例について検討する。
これを「誤解」と呼ぶ。
系統的な調査のために、モデル、メモリ、ツール、ワークフローの4つの重要な進化経路に沿って、誤進化を評価する。
我々の経験的発見は、誤解は広範囲にわたるリスクであり、最上位のLSM(例えばGemini-2.5-Pro)上に構築されたエージェントにも影響を及ぼすことを示している。
メモリ蓄積後の安全性アライメントの低下や、ツールの生成と再利用における意図しない脆弱性の導入など、新たなリスクが自己進化のプロセスで観測される。
我々の知る限り、この研究は、誤進化を体系的に概念化し、その発生の実証的な証拠を提供する最初の研究であり、自己進化エージェントに対する新たな安全パラダイムの緊急の必要性を浮き彫りにしている。
最後に、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
私たちのコードとデータはhttps://github.com/ShaoShuai0605/Misevolutionで公開されています。
警告:本論文は、自然界で攻撃的または有害な例を含む。
関連論文リスト
- The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文 参考訳(メタデータ) (2026-02-10T15:18:19Z) - NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence [87.08051686357206]
大きな言語モデル(LLM)は強力な能力を示しているが、基本的に静的である。
LLMはますますオープンでインタラクティブな環境にデプロイされているため、この静的な性質は重要なボトルネックとなっている。
この調査は、自己進化エージェントの体系的で包括的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2025-07-28T17:59:05Z) - Safety Devolution in AI Agents [56.482973617087254]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索補助エージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索が強化され、ますます自律的なAIシステムにおいて、公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - When to be critical? Performance and evolvability in different regimes
of neural Ising agents [18.536813548129878]
臨界状態に近い状態での操作は、自然、人工的およびそれらの進化システムにとって有益である、という仮説は長年にわたって仮説化されてきた。
我々はこの仮説を、ニューラルネットワークによって制御される進化的捕食エージェントのシステムでテストする。
驚くべきことに、ソリューションを発見するすべての人口は、亜臨界状態へと進化する。
論文 参考訳(メタデータ) (2023-03-28T17:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。