論文の概要: SREGym: A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios
- arxiv url: http://arxiv.org/abs/2605.07161v2
- Date: Wed, 13 May 2026 05:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.788495
- Title: SREGym: A Live Benchmark for AI SRE Agents with High-Fidelity Failure Scenarios
- Title(参考訳): SREGym: 高忠実度障害シナリオを備えたAI SREエージェントのライブベンチマーク
- Authors: Jackson Clark, Yiming Su, Saad Mohammad Rafid Pial, Yifang Tian, Lily Gniedziejko, Hans-Arno Jacobsen, Yinfang Chen, Tianyin Xu,
- Abstract要約: SREエージェントの高忠実度ベンチマークであるSREGymを提案する。
SREGymは、現実世界のクラウドネイティブなシステムスタック上に構築されたライブシステム環境を公開する。
SREGymには90の現実的で挑戦的なSRE問題が含まれている。
- 参考スコア(独自算出の注目度): 9.602525881559243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly used to diagnose and mitigate failures in production systems, known as agentic Site Reliability Engineering (SRE). Current SRE benchmarks are limited to oversimplistic SRE tasks and are unfortunately hard to extend due to bespoke designs. We present SREGym, a high-fidelity benchmark for SRE agents. SREGym exposes a live system environment built atop real-world cloud-native system stacks, where high-fidelity failure scenarios are simulated through fault injectors. SREGym models the complexity of production environments by simulating (1) a wide range of faults at different layers, (2) various ambient noises, and (3) diverse failure modes such as metastable failures and correlated failures. SREGym is architected as a modular, extensible framework that orchestrates fault and noise injectors across stacks. SREGym currently includes 90 realistic, challenging SRE problems. We use SREGym to evaluate frontier agents and show that their capabilities varies significantly in addressing different kinds of failures, with up to 40% differences in end-to-end results. SREGym is actively maintained as an open-source project and has been used by researchers and practitioners.
- Abstract(参考訳): AIエージェントは、エージェントサイト信頼性エンジニアリング(SRE)として知られる、プロダクションシステムの障害の診断と緩和にますます使用されている。
現行のSREベンチマークは単純化されたSREタスクに限られており、残念ながら設計上は拡張が難しい。
SREエージェントの高忠実度ベンチマークであるSREGymを提案する。
SREGymは、実世界のクラウドネイティブシステムスタック上に構築されたライブシステム環境を公開する。
SREGymは(1)異なる層における幅広い障害、(2)様々な環境騒音、(3)メタスタブル障害や相関障害などの多様な障害モードをシミュレートして生産環境の複雑さをモデル化する。
SREGymは、スタック全体でフォールトインジェクタとノイズインジェクタをオーケストレーションするモジュラーで拡張可能なフレームワークとして設計されている。
SREGymは現在90の現実的で挑戦的なSRE問題を含んでいる。
我々は、SREGymを使用して、フロンティアエージェントを評価し、その能力が様々な種類の障害に対処する際、最大40%のエンドツーエンド結果の違いで大きく変化することを示す。
SREGymはオープンソースプロジェクトとして活発にメンテナンスされており、研究者や実践者によって使用されている。
関連論文リスト
- Beyond Visual Fidelity: Benchmarking Super-Resolution Models for Large-Scale Remote Sensing Imagery via Downstream Task Integration [61.02313993032298]
超分解能(SR)技術は低分解能入力から高分解能画像の再構成に大きな進歩をもたらした。
GeoSR-Benchは、SRモデルから改良された画像解像度と下流の地球モニタリングタスクを直接接続する最初のSRベンチマークである。
270の設定で実験を行い、2つのクロスプラットフォームSRタスク、9つのSRモデル、3つのダウンストリームタスクモデル、各SRタスクの5つのダウンストリームタスクをカバーした。
論文 参考訳(メタデータ) (2026-05-01T00:44:46Z) - FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - SUNSET -- A Sensor-fUsioN based semantic SegmEnTation exemplar for ROS-based self-adaptation [2.8210523386413087]
アーキテクチャに基づく自己適応の厳密かつ反復的な評価を可能にするROS2ベースの例であるSUNSETを提案する。
SUNSETには、セグメンテーションパイプライン、トレーニングされたMLモデル、不確実性注入スクリプト、ベースラインコントローラ、ステップバイステップの統合と評価ドキュメントが含まれている。
論文 参考訳(メタデータ) (2026-01-20T08:40:57Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - SR-Eval: Evaluating LLMs on Code Generation under Stepwise Requirement Refinement [10.05571095209475]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
このミスマッチは、LLMが現実世界の開発をどのようにサポートできるかの理解を制限する。
SR-Evalは,ステップワイド要求再定義に基づく反復コード生成におけるLLMの評価に特化して設計されたベンチマークである。
論文 参考訳(メタデータ) (2025-09-23T08:59:05Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。
本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-04T19:56:18Z) - ERMAS: Becoming Robust to Reward Function Sim-to-Real Gaps in
Multi-Agent Simulations [110.72725220033983]
Epsilon-Robust Multi-Agent Simulation (ERMAS)は、このようなマルチエージェントのsim-to-realギャップに対して堅牢なAIポリシーを学ぶためのフレームワークである。
ERMASは、エージェントリスク回避の変化に対して堅牢な税政策を学び、複雑な時間シミュレーションで最大15%社会福祉を改善する。
特に、ERMASは、エージェントリスク回避の変化に対して堅牢な税制政策を学び、複雑な時間シミュレーションにおいて、社会福祉を最大15%改善する。
論文 参考訳(メタデータ) (2021-06-10T04:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。