論文の概要: RIVA: Leveraging LLM Agents for Reliable Configuration Drift Detection
- arxiv url: http://arxiv.org/abs/2603.02345v1
- Date: Mon, 02 Mar 2026 19:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.52207
- Title: RIVA: Leveraging LLM Agents for Reliable Configuration Drift Detection
- Title(参考訳): RIVA:信頼性の高い構成ドリフト検出のためのLLMエージェントの活用
- Authors: Sami Abuzakuk, Lucas Crijns, Anne-Marie Kermarrec, Rafael Pires, Martijn de Vos,
- Abstract要約: 既存のエージェントシステムは、彼らが呼び出すツールが常に正しい出力を返すと暗黙的に仮定している。
我々は,ツールが誤りや誤解を招く出力を生成する場合でも,堅牢なIaC検証を行う,新しいマルチエージェントシステムであるRIVAを紹介する。
この結果から,多種多様なツールコールの相互検証により,実運用環境におけるより信頼性の高い自律的インフラストラクチャ検証が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 3.494935876363005
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Infrastructure as code (IaC) tools automate cloud provisioning but verifying that deployed systems remain consistent with the IaC specifications remains challenging. Such configuration drift occurs because of bugs in the IaC specification, manual changes, or system updates. Large language model (LLM)-based agentic AI systems can automate the analysis of large volumes of telemetry data, making them suitable for the detection of configuration drift. However, existing agentic systems implicitly assume that the tools they invoke always return correct outputs, making them vulnerable to erroneous tool responses. Since agents cannot distinguish whether an anomalous tool output reflects a real infrastructure problem or a broken tool, such errors may cause missed drift or false alarms, reducing reliability precisely when it is most needed. We introduce RIVA (Robust Infrastructure by Verification Agents), a novel multi-agent system that performs robust IaC verification even when tools produce incorrect or misleading outputs. RIVA employs two specialized agents, a verifier agent and a tool generation agent, that collaborate through iterative cross-validation, multi-perspective verification, and tool call history tracking. Evaluation on the AIOpsLab benchmark demonstrates that RIVA, in the presence of erroneous tool responses, recovers task accuracy from 27.3% when using a baseline ReAct agent to 50.0% on average. RIVA also improves task accuracy 28% to 43.8% without erroneous tool responses. Our results show that cross-validation of diverse tool calls enables more reliable autonomous infrastructure verification in production cloud environments.
- Abstract(参考訳): インフラストラクチャ・アズ・コード(IaC)ツールはクラウドのプロビジョニングを自動化するが、デプロイされたシステムがIaC仕様と一貫していることを検証することは依然として難しい。
このような設定のドリフトは、IaC仕様のバグ、手動の変更、システム更新によって発生します。
大規模言語モデル(LLM)に基づくエージェントAIシステムは,大量のテレメトリデータの解析を自動化し,構成ドリフトの検出に適している。
しかし、既存のエージェントシステムは、彼らが呼び出すツールが常に正しい出力を返すと暗黙的に仮定しているため、誤ったツール応答に対して脆弱である。
エージェントは、異常なツール出力が実際のインフラストラクチャ問題や壊れたツールを反映しているかどうかを区別できないため、そのようなエラーは、欠落や誤報を引き起こし、最も必要な時に信頼性を正確に低下させる。
RIVA(Robust Infrastructure by Verification Agents)は,ツールが誤りや誤解を招くアウトプットを生成する場合でも,堅牢なIaC検証を行う新しいマルチエージェントシステムである。
RIVAには、検証エージェントとツール生成エージェントという2つの特殊エージェントが採用されている。
AIOpsLabベンチマークの評価では、RIVAは、誤ったツール応答がある場合には、ベースラインのReActエージェントを使用する場合のタスク精度を平均で50.0%から27.3%に回復する。
RIVAはまた、誤ったツール応答なしでタスク精度を28%から43.8%に改善する。
この結果から,多種多様なツールコールの相互検証により,実運用環境におけるより信頼性の高い自律的インフラストラクチャ検証が可能であることが示唆された。
関連論文リスト
- AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning [34.06688334066569]
AgentDropoutV2は、再トレーニングせずにMAS情報フローを動的に最適化するために設計されたテスト時間修正またはリジェクトプルーニングフレームワークである。
提案手法は, アクティブファイアウォールとして機能し, エージェントの出力を遮断し, 反復的に誤りを訂正する検索拡張を利用する。
広範なベンチマークによる実験結果から、AgentDropoutV2はMASのタスク性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2026-02-26T17:31:43Z) - Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。
エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:10:23Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Internal Representations as Indicators of Hallucinations in Agent Tool Selection [5.2107604548805915]
大規模言語モデル(LLM)は、ツール呼び出しとツールの使用において顕著な能力を示している。
LLMは、誤ったツールを選択し、不正なパラメータを提供し、"ツールバイパス"の振る舞いを示す幻覚に悩まされる。
LLMの内部表現を利用して,ツールコールの幻覚をリアルタイムに検出する,計算効率のよいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T18:38:45Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z) - REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-10-10T18:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。