論文の概要: Cloud-OpsBench: A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems
- arxiv url: http://arxiv.org/abs/2603.00468v1
- Date: Sat, 28 Feb 2026 05:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:49:48.561132
- Title: Cloud-OpsBench: A Reproducible Benchmark for Agentic Root Cause Analysis in Cloud Systems
- Title(参考訳): Cloud-OpsBench: クラウドシステムにおけるエージェント根因解析のための再現可能なベンチマーク
- Authors: Yilun Wang, Guangba Yu, Haiyu Huang, Zirui Wang, Yujie Huang, Pengfei Chen, Michael R. Lyu,
- Abstract要約: Cloud-OpsBenchは、State Snapshot Paradigmを使用して、クラウドの決定論的デジタルツインを構築する大規模なベンチマークである。
フルスタックにまたがる40の根本原因タイプに452の障害ケースがある。
- 参考スコア(独自算出の注目度): 51.2882705779387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition to agentic Root Cause Analysis (RCA) necessitates benchmarks that evaluate active reasoning rather than passive classification. However, current frameworks fail to reconcile ecological validity with reproducibility. We introduce Cloud-OpsBench, a large-scale benchmark that employs a State Snapshot Paradigm to construct a deterministic digital twin of the cloud, featuring 452 distinct fault cases across 40 root cause types spanning the full Kubernetes stack. Crucially, Cloud-OpsBench serves as an enabling infrastructure for next-generation SRE research: (1) As a Data Engine, it harvests high-quality reasoning trajectories to bootstrap Supervised Fine-Tuning (SFT) for Small Language Models; (2) As an Reinforcement Learning (RL) environment, it transforms high-risk operations into a safe low-latency sandbox for training policy optimization agents; and (3) As a Diagnostic Standard, its process-centric protocol uncovers architectural bottlenecks guiding the design of robust specialized multi-agent system for RCA.
- Abstract(参考訳): エージェント根本原因分析(RCA)への移行は、受動的分類よりも能動的推論を評価するベンチマークを必要とする。
しかし、現在のフレームワークは、再現性による生態学的妥当性の調整に失敗している。
Cloud-OpsBenchは、State Snapshot Paradigmを使用してクラウドの決定論的ディジタルツインを構築する大規模なベンチマークで、完全なKubernetesスタックにまたがる40の根本原因タイプに対して452の障害ケースを特徴とする。
重要なことに、Cloud-OpsBenchは次世代SRE研究の基盤として機能する。(1)データエンジンとして、小さな言語モデルのための監視された微調整(SFT)を抽出し、(2)強化学習(RL)環境として、リスクの高い操作を安全な低遅延サンドボックスに変換し、(3)診断基準として、そのプロセス中心のプロトコルは、RCAのための堅牢な専門化されたマルチエージェントシステムの設計を導くアーキテクチャ上のボトルネックを明らかにする。
関連論文リスト
- ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation [24.019381388104236]
本稿では,パターン発見と構造認識伝達を協調最適化問題として扱う統合フレームワークであるSCoTERを提案する。
具体的には、SCoTERは、自動パターン検出のためのGVMパイプラインと、ステップワイズロジックを効率的なモデルに転送する構造保存統合アーキテクチャという、2つの相乗的コンポーネントを通じてこれを運用する。
論文 参考訳(メタデータ) (2025-11-24T03:00:04Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Leveraging Large Language Model for Intelligent Log Processing and Autonomous Debugging in Cloud AI Platforms [1.819979627431298]
本稿では,Large Language Model (LLM) に基づくインテリジェントログ処理と自動デバッグフレームワークである Intelligent Debugger (LLM-ID) を提案する。
クラウドプラットフォームログデータセットの実験では、LLM-IDは障害位置の精度を16.2%向上させており、これは現在の主流メソッドよりも大幅に向上している。
論文 参考訳(メタデータ) (2025-06-22T04:58:37Z) - RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models [46.476439550746136]
近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-25T03:53:31Z) - CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms [10.385807432472854]
CloudRCAと呼ばれる根本原因分析フレームワークを提案する。
キーパフォーマンス指標(KPI)、ログ、トポロジなどの異種マルチソースデータを使用し、重要な特徴を抽出する。
f1スコアの既存のアプローチを、さまざまなクラウドシステムで一貫して上回ります。
論文 参考訳(メタデータ) (2021-11-05T23:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。