論文の概要: MicroRemed: Benchmarking LLMs in Microservices Remediation
- arxiv url: http://arxiv.org/abs/2511.01166v1
- Date: Mon, 03 Nov 2025 02:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.087656
- Title: MicroRemed: Benchmarking LLMs in Microservices Remediation
- Title(参考訳): MicroRemed: マイクロサービスのリメディエーションにおけるLLMのベンチマーク
- Authors: Lingzhe Zhang, Yunpeng Zhai, Tong Jia, Chiming Duan, Minghua He, Leyi Pan, Zhaoyang Liu, Bolin Ding, Ying Li,
- Abstract要約: エージェントベースの推論フレームワークと統合された大規模言語モデル(LLM)は、最近、自律的な意思決定の強い可能性を示している。
期待されているが、未調査の方向性のひとつが、障害のあるマイクロサービスシステムを自動的にリカバリするという、マイクロサービスの修復だ。
既存のアプローチはまだ、SRE(Site Reliability Engineers)からの人為的なプロンプトに依存しています。
エンドツーエンドのマイクロサービス修復において,LSMを評価する最初のベンチマークであるMicroRemedを紹介した。
- 参考スコア(独自算出の注目度): 38.338663893180446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) integrated with agent-based reasoning frameworks have recently shown strong potential for autonomous decision-making and system-level operations. One promising yet underexplored direction is microservice remediation, where the goal is to automatically recover faulty microservice systems. Existing approaches, however, still rely on human-crafted prompts from Site Reliability Engineers (SREs), with LLMs merely converting textual instructions into executable code. To advance research in this area, we introduce MicroRemed, the first benchmark for evaluating LLMs in end-to-end microservice remediation, where models must directly generate executable Ansible playbooks from diagnosis reports to restore system functionality. We further propose ThinkRemed, a multi-agent framework that emulates the reflective and perceptive reasoning of SREs. Experimental results show that MicroRemed presents substantial challenges to current LLMs, while ThinkRemed improves end-to-end remediation performance through iterative reasoning and system reflection. The benchmark is available at https://github.com/LLM4AIOps/MicroRemed.
- Abstract(参考訳): エージェントベースの推論フレームワークと統合された大規模言語モデル(LLM)は、最近、自律的な意思決定とシステムレベルの運用に強い可能性を示している。
期待されているが、未調査の方向性のひとつが、障害のあるマイクロサービスシステムを自動的にリカバリするという、マイクロサービスの修復だ。
しかし、既存のアプローチはSRE(Site Reliability Engineers)からの人為的なプロンプトに依存しており、LLMは単にテキスト命令を実行可能なコードに変換するだけである。
この領域の研究を進めるために、我々はMicroRemedを紹介した。これはエンドツーエンドのマイクロサービス修復においてLSMを評価するための最初のベンチマークであり、モデルが診断報告からシステム機能の復元に至るまで、実行可能なAnsibleプレイブックを直接生成する必要がある。
さらに、SREの反射的および知覚的推論をエミュレートするマルチエージェントフレームワークであるThinkRemedを提案する。
実験の結果,ThinkRemedは反復的推論とシステムリフレクションによってエンドツーエンドの修復性能を向上させる一方,MicroRemedは現在のLLMに重大な課題を呈していることがわかった。
ベンチマークはhttps://github.com/LLM4AIOps/MicroRemedで公開されている。
関連論文リスト
- Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent [6.300669721057781]
メタ・ポリシィ・リフレクション(Meta-Policy Reflexion, MPR)は、LCM生成したリフレクションを構造化された述語型メタ・ポリシィ・メモリ(MPM)に集約するフレームワークである。
MPRはモデルウェイト更新なしで再利用可能な修正知識を外部化し、安全でないアクションや無効なアクションを減らすためにドメイン制約を強制し、言語ベースのリフレクションの適応性を維持する。
供給材料に報告された実証結果は, 反射ベースラインと比較して, 実行精度とロバスト性が一貫した向上を示し, 規則許容性は安定性をさらに向上させる。
論文 参考訳(メタデータ) (2025-09-04T08:18:39Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture [25.752294816136807]
大規模言語モデル(LLM)は、未特定目標を達成することができる自律システムの出現を可能にした。
本稿では,テスト駆動型および行動駆動型開発に触発された評価駆動型開発手法を提案する。
我々のアプローチは、オンライン(ランタイム)とオフライン(再開発)の評価を統合し、適応的なランタイム調整を可能にします。
論文 参考訳(メタデータ) (2024-11-21T00:34:30Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Self-Retrieval: End-to-End Information Retrieval with One Large Language Model [97.71181484082663]
本稿では,新たなLLM駆動情報検索アーキテクチャであるSelf-Retrievalを紹介する。
自己検索は、自己教師付き学習を通じて検索コーパスを内部化し、検索プロセスをシーケンシャルな通過生成に変換し、再ランク付けのための関連性評価を行う。
論文 参考訳(メタデータ) (2024-02-23T18:45:35Z) - Towards Generating Executable Metamorphic Relations Using Large Language Models [46.26208489175692]
大規模言語モデル(LLM)を用いた要件から実行可能なMRを自動的に抽出する手法を提案する。
提案手法の有効性を評価するため,シーメンス・インダストリー・ソフトウェアと共同で質問紙調査を行った。
論文 参考訳(メタデータ) (2024-01-30T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。