論文の概要: Self-Healing Agentic Orchestrators for Reliable Tool-Augmented Large Language Model Systems
- arxiv url: http://arxiv.org/abs/2606.01416v1
- Date: Sun, 31 May 2026 19:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.692087
- Title: Self-Healing Agentic Orchestrators for Reliable Tool-Augmented Large Language Model Systems
- Title(参考訳): 信頼性ツール強化大規模言語モデルシステムのためのセルフヒーリングエージェントオーケストレータ
- Authors: Rahul Suresh Babu, Adarsh Agrawal,
- Abstract要約: セルフヒーリングエージェントオーケストレータは、信頼性をランタイム境界制御問題として扱う。
セルフヒーリングは98.8%のタスク成功を達成し、リトライオンリーでは94.5%、フルリプランでは93.8%を達成している。
- 参考スコア(独自算出の注目度): 0.10210859604701106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented large language model (LLM) agents rely on orchestration layers that coordinate planning, retrieval, tool invocation, validation, memory, and recovery. In these systems, failures arise not only from model errors, but also from orchestration-level issues such as tool timeouts, malformed arguments, stale context, contradictory evidence, retry loops, and unverified intermediate outputs. This paper presents a self-healing agentic orchestrator that treats reliability as a bounded runtime control problem. The orchestrator maps observable failure signals to inferred failure classes, selects targeted recovery actions under explicit budgets, verifies recovered trajectories, and records observability traces. We evaluate the approach on a 100-task controlled fault-injection benchmark against static workflow, retry-only, ReAct-style, and full-replanning baselines. Self-healing achieves 98.8\% task success, compared with 94.5\% for retry-only and 93.8\% for full replanning. A matched recovery-budget sweep shows that self-healing outperforms retry-only and full replanning at every tested budget, with the largest gap under a single recovery attempt: 94.0\% versus 85.3\% and 88.2\%, respectively. Under a controlled semantic silent-failure setting, verifier-guided self-healing reduces silent failures to 0.0\%, while non-verifying baselines return wrong-but-plausible outputs more often. A compact model-in-the-loop validation shows that the same recovery mechanism can operate when a live tool-calling model performs tool selection, argument generation, and answer synthesis over local fault-injected tools. These results provide controlled evidence that failure-aware, budgeted, and verification-guided orchestration improves reliability and diagnosability in tool-augmented LLM systems.
- Abstract(参考訳): ツール拡張大型言語モデル(LLM)エージェントは、計画、検索、ツール呼び出し、バリデーション、メモリ、リカバリを調整するオーケストレーションレイヤに依存している。
これらのシステムでは、失敗はモデルエラーだけでなく、ツールタイムアウト、不正な引数、古いコンテキスト、矛盾するエビデンス、再試行ループ、未検証中間出力といったオーケストレーションレベルの問題からも生じる。
本稿では,信頼性を制約付きランタイム制御問題として扱うセルフヒーリングエージェントオーケストレータを提案する。
オーケストレータは、観測可能な障害信号を推論された障害クラスにマッピングし、明確な予算の下でターゲットとなるリカバリアクションを選択し、復元されたトラジェクトリを検証し、可観測性トレースを記録する。
静的ワークフロー,リトライのみ,ReActスタイル,フルリプランベースラインに対して,100タスク制御されたフォールトインジェクションベンチマークのアプローチを評価する。
セルフヒーリングは98.8.%のタスク成功を達成し、リトライのみでは94.5.%、フルリプランでは93.8.%を達成している。
回復予算の一致した調査では、自己修復は再試行のみに優れ、全ての予算において完全な再計画が達成され、最大のギャップは1回のリカバリ試行で94.0\%対85.3\%と88.2\%である。
制御されたセマンティック・サイレント・フェイル・セッティングの下では、検証対象の自己修復はサイレント障害を0.0\%に減らし、検証対象でないベースラインは間違ったが証明可能な出力をより頻繁に返す。
コンパクトなモデル・イン・ザ・ループ検証は、ライブツール呼び出しモデルがツール選択、引数生成、およびローカルな障害注入ツール上での応答合成を行う場合、同じリカバリ機構が動作可能であることを示している。
これらの結果は、ツール強化LDMシステムにおける障害認識、予算化、検証誘導オーケストレーションが信頼性と診断可能性を向上させるという制御された証拠を提供する。
関連論文リスト
- VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - ANNEAL: Adapting LLM Agents via Governed Symbolic Patch Learning [12.44509691077682]
本稿では,繰り返し発生する障害をプロセス知識グラフのシンボル編集に変換する神経シンボルエージェントであるANNEALを紹介する。
その中核となるメカニズムであるFDKA(Failure-Driven Knowledge Acquisition)は、責任のあるオペレータをローカライズし、制約付きLLM生成を通じて型付きパッチを合成し、提案を検証する。
4つのドメインと27のマルチシードランをまたいだANNEALは、永続的な構造修復を行う唯一の評価システムである。
論文 参考訳(メタデータ) (2026-05-04T05:24:03Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - Missing-Aware Multimodal Fusion for Unified Microservice Incident Management [22.703696384749595]
ARMORは、モダリティの欠如を前提とした、自己管理型のフレームワークである。
自己監督型自己回帰とマスク誘導型再構成を用いて、異常検出、障害トリアージ、根本原因の局在を共同で最適化する。
完全なデータ条件下での最先端性能を実現し、厳密なモダリティ損失でも堅牢な診断精度を維持する。
論文 参考訳(メタデータ) (2026-03-26T15:14:57Z) - Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors [41.78467154106763]
本稿では,実行エラーをRLトレーニングループ内の修正監視に変換するフレームワークであるFission-GRPOを提案する。
私たちのコアメカニズムは、微調整されたエラーシミュレータの診断フィードバックによって、新しいトレーニングインスタンスへの各障害軌跡を増大させます。
BFCL v4 Multi-Turnでは、Fission-GRPOはQwen3-8Bのエラー回復率を5.7%改善し、その精度は4%向上した。
論文 参考訳(メタデータ) (2026-01-22T03:57:35Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - PALADIN: Self-Correcting Language Model Agents to Cure Tool-Failure Cases [2.3181214107210235]
PALADINは、系統的な障害注入によって構築された5万以上のリカバリアノテーション付き軌道を走行する。
トレーニングでは、LoRAベースの微調整を使用して、回復能力を注入しながらベース能力を維持する。
このアプローチは、トレーニング分布を超えた新しい失敗に一般化する。
論文 参考訳(メタデータ) (2025-09-25T10:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。