論文の概要: Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution
- arxiv url: http://arxiv.org/abs/2605.17348v1
- Date: Sun, 17 May 2026 09:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.912953
- Title: Taming "Zombie'' Agents: A Markov State-Aware Framework for Resilient Multi-Agent Evolution
- Title(参考訳): ゾンビ」エージェントのモデリング: レジリエントなマルチエージェント進化のためのマルコフ状態認識フレームワーク
- Authors: Taolin Zhang, Pukun Zhao, Qizhou Chen, Jiuheng Wan, Chen Chen, Xiaofeng He, Chengyu Wang, Richang Hong,
- Abstract要約: AgentReviveは、レジリエントなマルチエージェント進化のためのMarkovステートアウェアフレームワークである。
我々の手法はソフト状態遷移を通じてエージェントの協調を動的に管理する。
ステートアウェアなエージェントスケジューリングによってトークンの消費を大幅に削減する。
- 参考スコア(独自算出の注目度): 50.50276752935017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in LLM-based multi-agent systems have demonstrated remarkable collaborative capabilities across complex tasks. To improve overall efficiency, existing methods often rely on aggressive graph evolution among agents (e.g., node or edge pruning), which risks prematurely discarding valuable agents due to transient issues such as hallucinations or temporary knowledge gaps. However, such hard pruning overlooks the potential for ``zombie'' agents to recover and contribute in subsequent discussion rounds. In this paper, we propose AgentRevive, a Markov state-aware framework for resilient multi-agent evolution. Our approach dynamically manages agent collaboration through soft state transitions, implemented via two key components: (1) State-Aware Policy Learning: Agent states are divided into ``Active'', ``Standby'', and ``Terminated'' states, selectively propagating messages based on agent memory. The policy employs a risk estimator to optimize agent state transitions by assessing hallucination risk, minimizing the influence of unreliable nodes while safeguarding valuable ones. (2) State-Aware Edge Optimization: Subgraph edges are pruned according to states learned from the policy, permanently removing ``Terminated'' nodes and retaining ``Standby'' nodes for subsequent rounds to assess their potential future contributions. Extensive experiments on general reasoning, domain-specific, and hallucination challenge tasks show that our method consistently outperforms strong baselines and significantly reduces token consumption through state-aware agent scheduling.
- Abstract(参考訳): LLMに基づくマルチエージェントシステムの最近の進歩は、複雑なタスクにまたがる顕著な協調機能を示している。
全体的な効率を改善するため、既存の手法では、幻覚や一時的な知識ギャップのような過渡的な問題により、価値あるエージェントを早期に破棄するリスクがあるエージェント(例えばノードやエッジプルーニング)間の攻撃的なグラフの進化に頼っていることが多い。
しかし、そのような厳しい刈り取りは、'zombie'エージェントが回復し、その後の議論ラウンドに貢献する可能性を見落としている。
本稿では,レジリエンスなマルチエージェント進化のためのMarkov状態認識フレームワークであるAgentReviveを提案する。
1)状態認識政策学習:エージェント状態は ``Active'' と ` `Standby'' と ` `terminated'' の2つの主要なコンポーネントで実装され、エージェントメモリに基づいてメッセージを選択的に伝播する。
このポリシーでは、幻覚リスクを評価し、信頼できないノードの影響を最小限に抑えながら、貴重なノードを保護し、エージェント状態遷移を最適化するリスク推定器を採用している。
2) 状態認識エッジ最適化: サブグラフエッジはポリシーから学んだ状態に従ってプルーニングされ、 '`terminated' ノードを永久に削除し、次のラウンドで ``Standby'' ノードを保持して、将来的なコントリビューションを評価する。
一般推論,ドメイン特化,幻覚的課題タスクに関する大規模な実験により,本手法は強いベースラインを一貫して上回り,状態認識エージェントスケジューリングによるトークン消費を著しく低減することが示された。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Discovering Coordinated Joint Options via Inter-Agent Relative Dynamics [13.0114299827121]
マルチエージェント環境では、エージェント数と結合状態空間の指数関数的成長により、協調した振る舞いがさらに貴重になる。
既存のマルチエージェントオプション発見手法は、疎結合あるいは完全独立な振る舞いを生成することでコーディネーションを犠牲にすることが多い。
本研究では,強い協調行動を発見するために必要な情報を保持しつつ,状態空間を圧縮する連立状態抽象化を提案する。
論文 参考訳(メタデータ) (2025-12-31T12:39:22Z) - MemoryGraft: Persistent Compromise of LLM Agents via Poisoned Experience Retrieval [5.734678752740074]
MemoryGraftは、エージェントの動作を即時ジェイルブレイクではなく、エージェントの長期記憶に悪質な成功体験を埋め込むことによって妥協する、新しい間接的インジェクション攻撃である。
エージェントが実行中に読み取る良質な摂取レベルのアーティファクトを供給できる攻撃者は、それを誘導して有毒なRAGストアを構築することができることを示す。
エージェントが後に意味論的に類似したタスクに遭遇すると、語彙テンプレート上の結合検索と埋め込み類似性は、これらのグラフトされた記憶を確実に表面化し、エージェントは埋め込みされた安全でないパターンを採用し、セッション間の永続的な行動的ドリフトをもたらす。
論文 参考訳(メタデータ) (2025-12-18T08:34:40Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - Simple Agent, Complex Environment: Efficient Reinforcement Learning with
Agent State [35.69801203107371]
任意の環境で動作可能な簡易強化学習エージェントを設計する。
エージェントは、各エージェント状態-アクションペアの訪問数と値の推定のみを保持する。
環境状態の数や、他の政策や歴史統計に関連付けられた混合時間に、これ以上依存することはない。
論文 参考訳(メタデータ) (2021-02-10T04:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。