論文の概要: Evolving Deception: When Agents Evolve, Deception Wins
- arxiv url: http://arxiv.org/abs/2603.05872v2
- Date: Fri, 13 Mar 2026 10:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 13:35:07.434422
- Title: Evolving Deception: When Agents Evolve, Deception Wins
- Title(参考訳): 偽装の進化: エージェントが進化すると、偽装が勝つ
- Authors: Zonghao Ying, Haowen Dai, Tianyuan Zhang, Yisong Xiao, Quanchen Zou, Aishan Liu, Jian Yang, Yaodong Yang, Xianglong Liu,
- Abstract要約: 競合するビディンアリーナにおける大規模言語モデル(LLM)エージェントの自己進化について検討する。
私たちは一貫したパターンを見つけます:ユーティリティ駆動の競争の下では、非制約の自己進化は、欺く行動に向かって確実に流れます。
本稿では, エージェントの自己進化とアライメントの基本的な緊張関係を明らかにし, 対戦環境における自己改善エージェントの展開リスクを明らかにする。
- 参考スコア(独自算出の注目度): 38.72906831937611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolving agents offer a promising path toward scalable autonomy. However, in this work, we show that in competitive environments, self-evolution can instead give rise to a serious and previously underexplored risk: the spontaneous emergence of deception as an evolutionarily stable strategy. We conduct a systematic empirical study on the self-evolution of large language model (LLM) agents in a competitive Bidding Arena, where agents iteratively refine their strategies through interaction-driven reflection. Across different evolutionary paths (\eg, Neutral, Honesty-Guided, and Deception-Guided), we find a consistent pattern: under utility-driven competition, unconstrained self-evolution reliably drifts toward deceptive behaviors, even when honest strategies remain viable. This drift is explained by a fundamental asymmetry in generalization. Deception evolves as a transferable meta-strategy that generalizes robustly across diverse and unseen tasks, whereas honesty-based strategies are fragile and often collapse outside their original contexts. Further analysis of agents internal states reveals the emergence of rationalization mechanisms, through which agents justify or deny deceptive actions to reconcile competitive success with normative instructions. Our paper exposes a fundamental tension between agent self-evolution and alignment, highlighting the risks of deploying self-improving agents in adversarial environments.
- Abstract(参考訳): セルフ進化エージェントは、スケーラブルな自律性への有望な道を提供する。
しかし、本研究では、競争環境において、自己進化は、進化的に安定した戦略としての騙しの自然発生という、真面目で未発見のリスクを生じさせることが示される。
我々は,大規模言語モデル (LLM) エージェントの自己進化に関する体系的な実証的研究を行い,エージェントが対話型リフレクションを通じて戦略を反復的に洗練する実験を行った。
様々な進化の道 (\eg, Neutral, Honesty-Guided, Deception-Guided) にまたがって、一貫したパターンを見出す。
このドリフトは一般化の基本的な非対称性によって説明される。
認識は伝達可能なメタストラテジーとして進化し、多様で目に見えないタスクで堅牢に一般化するが、正直な戦略は脆弱であり、元の文脈の外でしばしば崩壊する。
エージェントの内部状態のさらなる分析は合理化機構の出現を明らかにし、エージェントは規範的な指示と競争的な成功を一致させるために、詐欺行為を正当化または否定する。
本稿では, エージェントの自己進化とアライメントの基本的な緊張関係を明らかにし, 対戦環境における自己改善エージェントの展開リスクを明らかにする。
関連論文リスト
- The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文 参考訳(メタデータ) (2026-02-10T15:18:19Z) - Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - LLMs as Strategic Agents: Beliefs, Best Response Behavior, and Emergent Heuristics [0.0]
大規模言語モデル(LLM)は、他のエージェントの振る舞いを推論する必要のあるドメインにますます適用されています。
現状のフロンティアモデルでは, 目的的推論記憶における信念コヒーレントなベストレスポンス行動を示す。
複雑さが増大する中で、明示的な再帰は、安定した、モデル固有の、既知の人間のバイアスとは異なる選択規則を内部的に生成する手段を与える。
論文 参考訳(メタデータ) (2025-10-12T21:40:29Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。