論文の概要: Towards Healthy Evolution: Exploring the Role and Mechanisms of Human-Agent Interaction in Self-Evolving Systems
- arxiv url: http://arxiv.org/abs/2606.06114v2
- Date: Sat, 06 Jun 2026 08:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 12:24:31.354453
- Title: Towards Healthy Evolution: Exploring the Role and Mechanisms of Human-Agent Interaction in Self-Evolving Systems
- Title(参考訳): 健康進化に向けて : 自己進化システムにおける人間とエージェントの相互作用の役割とメカニズムを探る
- Authors: Dianxing Shi, Bowen Wang, Junqi He, Junhao Chen, Yuta Nakashima,
- Abstract要約: 自己進化エージェントは、連続的な自己再生と自己生成学習信号によって改善される。
Human-like Oversight and Review (ANCHOR)は、人間の監督をシミュレートし、自己進化のさまざまなフェーズでフィードバックを提供する。
- 参考スコア(独自算出の注目度): 30.399085963137836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolving agents improve through continual self-play and self-generated learning signals, but autonomous evolution can also cause capability degradation and safety drift. Although human feedback has proven effective for static and post-trained agents, its role in self-evolving systems remains underexplored. We introduce Agent Norm Correction through Human-like Oversight and Review (ANCHOR), an LLM-based framework that simulates human supervision and delivers feedback at various phases of self-evolution. With ANCHOR, we evaluate two representative open-source self-evolving agent systems across coding, mathematical reasoning, and safety. Our results show that even limited supervision substantially mitigates safety degradation while preserving stable performance on core evolutionary objectives. Further analysis shows that supervision over the output verification phase is the most effective for intervention, whereas increasing supervision frequency yields diminishing returns. These findings provide empirical evidence and practical guidance for designing more stable, controllable, and human-aligned self-evolving agent systems.
- Abstract(参考訳): 自己進化エージェントは、連続的な自己再生と自己生成学習信号によって改善されるが、自律進化は能力劣化や安全性の低下を引き起こす。
人間のフィードバックは静的およびポストトレーニングされたエージェントに有効であることが証明されているが、自己進化システムにおけるその役割は未解明のままである。
我々は、人間の監督をシミュレートし、自己進化の様々なフェーズでフィードバックを提供するLLMベースのフレームワークであるHuman-like Oversight and Review (ANCHOR)によるエージェントノルム補正を紹介する。
ANCHORを用いて、符号化、数学的推論、安全性の2つの代表的なオープンソース自己進化エージェントシステムを評価する。
本研究は, 限定的な監視さえも, コア進化目標に対する安定的な性能を維持しつつ, 安全性の低下を著しく軽減することを示した。
さらに分析したところ、出力検証フェーズの監視は介入に最も効果的である一方、監視周波数の増加はリターンを減少させることがわかった。
これらの知見は、より安定し、制御可能で、かつ、人間に適応した自己進化型エージェントシステムを設計するための実証的な証拠と実践的なガイダンスを提供する。
関連論文リスト
- MobEvolve: An Agentic Self-Evolving Heuristic System for Interpretable Human Mobility Generation [51.824145170051516]
MobEvolveは、人間のモビリティ生成のための自己進化フレームワークである。
エージェントを使用して、内部ロジックを反復的に進化させる。
最先端の深層生成法とLLMベースの手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-06-01T03:46:25Z) - The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。
エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。
我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文 参考訳(メタデータ) (2026-02-10T15:18:19Z) - Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning [52.99434388759101]
ツール統合推論による継続的改善を実現する自己進化型視覚言語エージェントを提案する。
Agent0-VLは、ツールの使用法を推論だけでなく、自己評価や自己修復にも取り入れている。
実験の結果,Agent0-VLはベースモデルよりも12.5%向上していることがわかった。
論文 参考訳(メタデータ) (2025-11-25T04:15:14Z) - Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents [58.69865074060139]
エージェントの自己進化が意図しない方法で逸脱し、望ましくない結果や有害な結果に至る場合について検討する。
我々の経験から、誤進化は広範囲にわたるリスクであり、最上位のLSM上に構築されたエージェントにも影響を及ぼすことが判明した。
我々は、より安全で信頼性の高い自己進化型エージェントを構築するためのさらなる研究を促すための潜在的な緩和戦略について議論する。
論文 参考訳(メタデータ) (2025-09-30T14:55:55Z) - Ego-Foresight: Self-supervised Learning of Agent-Aware Representations for Improved RL [26.169030913260084]
本研究では,移動と予測に基づくエージェントと環境の自己管理手法であるEgo-Foresightを提案する。
エージェントのビジュモータ予測による自己監督型エージェント認識は,RLアルゴリズムのサンプル効率と性能を向上させる。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。