論文の概要: AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis
- arxiv url: http://arxiv.org/abs/2603.03378v2
- Date: Thu, 05 Mar 2026 02:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.351697
- Title: AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis
- Title(参考訳): AOI:障害軌道を自律クラウド診断のための訓練信号に変換する
- Authors: Pei Yang, Wanyi Chen, Asuka Yuxi Zheng, Xueqian Li, Xiang Li, Haoqin Tu, Jie Xiao, Yifan Pang, Dongdong Zhang, Fuqiang Li, Alfred Long, Bill Shi, Lynn Ai, Eric Yang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、SRE(Site Reliability Engineering)を自動化するための有望なデータ駆動型アプローチを提供する
本稿では,セキュリティ制約下での構造化軌道学習問題として,自動操作を定式化したトレーニング可能なマルチエージェントフレームワークAOIを提案する。
- 参考スコア(独自算出の注目度): 19.899469614370478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents offer a promising data-driven approach to automating Site Reliability Engineering (SRE), yet their enterprise deployment is constrained by three challenges: restricted access to proprietary data, unsafe action execution under permission-governed environments, and the inability of closed systems to improve from failures. We present AOI (Autonomous Operations Intelligence), a trainable multi-agent framework formulating automated operations as a structured trajectory learning problem under security constraints. Our approach integrates three key components. First, a trainable diagnostic system applies Group Relative Policy Optimization (GRPO) to distill expert-level knowledge into locally deployed open-source models, enabling preference-based learning without exposing sensitive data. Second, a read-write separated execution architecture decomposes operational trajectories into observation, reasoning, and action phases, allowing safe learning while preventing unauthorized state mutation. Third, a Failure Trajectory Closed-Loop Evolver mines unsuccessful trajectories and converts them into corrective supervision signals, enabling continual data augmentation. Evaluated on the AIOpsLab benchmark, our contributions yield cumulative gains. (1) The AOI runtime alone achieves 66.3% best@5 success on all 86 tasks, outperforming the prior state-of-the-art (41.9%) by 24.4 points. (2) Adding Observer GRPO training, a locally deployed 14B model reaches 42.9% avg@1 on 63 held-out tasks with unseen fault types, surpassing Claude Sonnet 4.5. (3) The Evolver converts 37 failed trajectories into diagnostic guidance, improving end-to-end avg@5 by 4.8 points while reducing variance by 35%.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、SRE(Site Reliability Engineering)を自動化するための有望なデータ駆動アプローチを提供するが、その企業展開には、プロプライエタリなデータへのアクセスの制限、パーミッションが支配する環境下でのアンセーフなアクション実行、障害から改善するクローズドシステムの障害という3つの課題がある。
本稿では,AOI(Autonomous Operations Intelligence)について述べる。AOI(Autonomous Operations Intelligence)は,セキュリティ制約下での構造化軌道学習問題として,自動操作を定式化したトレーニング可能なマルチエージェントフレームワークである。
このアプローチは3つの重要なコンポーネントを統合します。
まず、訓練可能な診断システムは、専門家レベルの知識をローカルにデプロイされたオープンソースモデルに抽出するためにグループ相対ポリシー最適化(GRPO)を適用する。
第二に、読み取り書き離された実行アーキテクチャは、動作軌跡を観察、推論、動作フェーズに分解し、許可されていない状態の突然変異を防止しながら安全な学習を可能にする。
第三に、故障軌道クローズド・ループ・イーボルバーは失敗した軌道を採掘し、それらを補正された監視信号に変換し、連続的なデータ拡張を可能にする。
AIOpsLabベンチマークで評価すると、私たちのコントリビューションは累積的な利益をもたらします。
1) AOIランタイムだけで、86タスクすべてで66.3%のベスト@5を達成し、従来の最先端(41.9%)を24.4ポイント上回っている。
2)オブザーバGRPOトレーニングの追加により、ローカルにデプロイされた14Bモデルは、見知らぬ障害タイプを持つ63のホールトアウトタスクにおいて42.9%のavg@1に達し、Claude Sonnet 4.5を上回った。
(3) Evolverは、37の障害軌跡を診断指導に変換し、4.8ポイント改善し、ばらつきを35%低減する。
関連論文リスト
- AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Temporal Attack Pattern Detection in Multi-Agent AI Workflows: An Open Framework for Training Trace-Based Security Models [0.0]
マルチエージェントAIにおける時間的攻撃パターンを検出するために,言語モデルを微調整するためのオープンドキュメンテーション手法を提案する。
18の公開サイバーセキュリティソースと35,026の合成OpenTelemetryトレースから80,851のデータセットをキュレートする。
カスタムベンチマークの精度は42.86%から74.29%に向上し、統計的に有意な31.4ポイントの上昇となった。
論文 参考訳(メタデータ) (2025-12-29T09:41:22Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Co-Evolving Agents: Learning from Failures as Hard Negatives [38.61683607205988]
近年の研究では、自己改善剤を自力で生成し、精製し、自身の軌道で再訓練する研究が進められている。
本稿では、目標エージェントが補助故障エージェントと共同で改善する共進化型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:30:33Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Adaptive Data Flywheel: Applying MAPE Control Loops to AI Agent Improvement [8.230420096371407]
我々は、NVIDIAのMixture-of-Experts (MoE) Knowledge AssistantであるNVInfo AIにおけるデータフライホイールの実践的な実装について述べる。
我々は、検索強化世代(RAG)パイプラインの障害に対処し、継続的な学習を可能にするクローズドループシステムを構築した。
ルーティングでは、Llama 3.1Bモデルを微調整8Bモデルに置き換え、96%の精度、モデルサイズ10倍の削減、70%のレイテンシ改善を実現した。
論文 参考訳(メタデータ) (2025-10-30T23:41:06Z) - Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning [3.4643961367503575]
既存のUAVフレームワークには、コンテキスト対応の推論、自律的な意思決定、エコシステムレベルの統合が欠けている。
本稿では,5層アーキテクチャであるエージェントUAVフレームワークを紹介する(知覚,推論,アクション,統合,学習)。
ROS2 と Gazebo ベースのプロトタイプは YOLOv11 オブジェクト検出と GPT-4 推論とローカル Gemma-3 デプロイメントを統合している。
論文 参考訳(メタデータ) (2025-09-14T08:46:40Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。