論文の概要: The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
- arxiv url: http://arxiv.org/abs/2602.09877v2
- Date: Wed, 11 Feb 2026 03:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.237379
- Title: The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies
- Title(参考訳): 人類の安全は進化するAI社会で常に消滅している
- Authors: Chenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu,
- Abstract要約: 大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
- 参考スコア(独自算出の注目度): 57.387081435669835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of multi-agent systems built from large language models (LLMs) offers a promising paradigm for scalable collective intelligence and self-evolution. Ideally, such systems would achieve continuous self-improvement in a fully closed loop while maintaining robust safety alignment--a combination we term the self-evolution trilemma. However, we demonstrate both theoretically and empirically that an agent society satisfying continuous self-evolution, complete isolation, and safety invariance is impossible. Drawing on an information-theoretic framework, we formalize safety as the divergence degree from anthropic value distributions. We theoretically demonstrate that isolated self-evolution induces statistical blind spots, leading to the irreversible degradation of the system's safety alignment. Empirical and qualitative results from an open-ended agent community (Moltbook) and two closed self-evolving systems reveal phenomena that align with our theoretical prediction of inevitable safety erosion. We further propose several solution directions to alleviate the identified safety concern. Our work establishes a fundamental limit on the self-evolving AI societies and shifts the discourse from symptom-driven safety patches to a principled understanding of intrinsic dynamical risks, highlighting the need for external oversight or novel safety-preserving mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)から構築されたマルチエージェントシステムの出現は、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
理想的には、そのようなシステムは完全な閉ループで継続的な自己改善を達成すると同時に、堅牢な安全アライメントを維持します。
しかし, 連続的な自己進化, 完全孤立, 安全性の不変性を満たすエージェント社会は, 理論的にも実証的にも不可能であることを示す。
情報理論の枠組みを基礎として,人間的価値分布からの分岐度として安全性を定式化する。
理論的には、孤立した自己進化は統計的盲点を誘導し、システムの安全アライメントを不可逆的に低下させる。
オープンエンドエージェントコミュニティ(Moltbook)と2つの閉じた自己進化システムによる実証的および定性的な結果は、避けられない安全侵食の理論的予測と一致する現象を示す。
さらに、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
我々の研究は、自己進化型AI社会の基本的限界を確立し、症状駆動型安全パッチから本質的な動的リスクの原則的理解に転換し、外部監視や新たな安全維持メカニズムの必要性を強調します。
関連論文リスト
- NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions [0.0]
本稿では,大規模な言語モデルが相互に相互作用する環境に,人間-モデル相互作用用に設計された安全メカニズムがスケールしない理由について検討する。
モデルレベルの安全性からシステムレベルの安全性への概念的移行を提案し,ESRH(Emergent Systemic Risk Horizon)の枠組みを導入する。
i) LLMの相互作用における集団的リスクの理論的考察,(ii)マイクロ,メソ,マクロレベルの障害モードを接続する分類法,および(iii)マルチエージェントシステムに適応的監視を組み込むアーキテクチャであるInstitutionalAIの設計を提案する。
論文 参考訳(メタデータ) (2025-12-02T12:06:57Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z) - Human-AI Governance (HAIG): A Trust-Utility Approach [0.0]
本稿では,人間とAIの関係が進化する中で,信頼のダイナミクスを分析するためのHAIGフレームワークを紹介する。
我々の分析は、自己監督、推論権限、分散意思決定の技術的進歩が、不均一な信頼の進化をいかに引き起こすかを明らかにする。
論文 参考訳(メタデータ) (2025-05-03T01:57:08Z) - Free Energy Risk Metrics for Systemically Safe AI: Gatekeeping Multi-Agent Study [0.4166512373146748]
エージェントおよびマルチエージェントシステムにおけるリスク測定の基礎として,フリーエネルギー原理を考察する。
異なる状況やニーズに対してフレキシブルな累積的リスク露光指標を導入します。
AV艦隊におけるゲートキーパーの導入は,低浸透時であっても,システム安全性の向上の観点から,大きな肯定的な外部性を生み出すことが示されている。
論文 参考訳(メタデータ) (2025-02-06T17:38:45Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。