論文の概要: Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows
- arxiv url: http://arxiv.org/abs/2605.18327v1
- Date: Mon, 18 May 2026 12:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.405515
- Title: Causely: A Causal Intelligence Layer for Enterprise AI A Benchmark Study on SRE and Reliability Workflows
- Title(参考訳): 原因: エンタープライズAIのための因果的インテリジェンスレイヤ SREと信頼性ワークフローに関するベンチマーク研究
- Authors: Dhairya Dalal, Endre Sara, Ben Yemini, Christine Miller, Shmuel Kliger,
- Abstract要約: 原因は、環境トポロジ、属性依存、因果関係の構造化された表現を維持する因果インテリジェンス層である。
我々は,24-microservice OpenTelemetry デモアプリケーションにおいて,インジェクト障害を伴う制御された環境下で実施したベンチマークにより,この価値提案を評価する。
- 参考スコア(独自算出の注目度): 0.9025503352150883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents deployed into SRE workflows currently derive their understanding of environment state from raw observability telemetry at query time, paying a semantic-interpretation tax in tokens, latency, and inferential reliability. We propose Causely, a causal intelligence layer that maintains a structured representation of environment topology, attribute dependencies, and causal relationships that are anchroed to a ontological representation of the managed environment. Causely transforms raw telemetry into a live, queryable model providing the semantic and causal foundation AI agents require to diagnose, evaluate impact, and act safely in production. We evaluate this value proposition through a benchmark study conducted in a controlled setting with injected faults in a 24-microservice OpenTelemetry demo application. Our experiments compare four agent configurations (Claude Code, OpenAI Codex, HolmesGPT with Sonnet and Gemini backends). Experiments are run with and without access to Causely under two scenarios: an active incident and a healthy baseline. On the active-fault scenario, causal grounding reduces mean time-to-diagnosis by 63\%, mean token consumption by 60\%, and mean tool-call count by 78\%, compressing the investigation footprint by 4.8$\times$ and lowering direct API cost per run by 57\%; root-cause-diagnosis accuracy rises from 75\% to 100\%.
- Abstract(参考訳): SREワークフローにデプロイされたAIエージェントは、現在、クエリ時に生の可観測性テレメトリから環境状態の理解を導き、トークン、レイテンシ、推論信頼性のセマンティック解釈税を支払っている。
本稿では, 環境トポロジ, 属性依存性, 因果関係の構造化された表現を, 管理環境のオントロジ的表現に関連づけた因果的インテリジェンス層を提案する。
結果として、生のテレメトリを、AIエージェントが診断し、影響を評価し、プロダクションで安全に行動する必要があるセマンティックで因果的な基礎を提供する、生きたクエリー可能なモデルに変換する。
我々は,24-microservice OpenTelemetry デモアプリケーションにおいて,インジェクト障害を伴う制御された環境下で実施したベンチマークにより,この価値提案を評価する。
実験では4つのエージェント構成(Claude Code、OpenAI Codex、HolmesGPT、Sonnet、Geminiバックエンド)を比較した。
実験は、アクティブインシデントと健全なベースラインという2つのシナリオの下で、アクセスなしで実行される。
アクティブ・フォールト・シナリオでは、カソーサル・グラウンドリングにより平均診断時間を63 %、平均トークン消費を60 %、平均ツールコール数を78 %、調査フットプリントを4.8$\times$で圧縮し、直接APIコストを57 %、根因診断精度を75 %から100 %に下げる。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [68.28714988482703]
プロセス・リワード・モデル(PRM)は、LLM(Large Language Models)の推論能力を増強することに成功した。
本稿では,一般ドメインのPRMがデータ分析エージェントの監督に苦慮していることを示す。
本稿では,新しい環境対応生成プロセス報酬モデルであるDataPRMを紹介する。
論文 参考訳(メタデータ) (2026-04-27T09:00:30Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
論文 参考訳(メタデータ) (2026-03-18T15:59:30Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - DepRadar: Agentic Coordination for Context Aware Defect Impact Analysis in Deep Learning Libraries [12.07621297131295]
DepRadarは、DLライブラリのアップデートにおけるきめ細かい欠陥と影響分析のためのエージェント調整フレームワークである。
静的解析とDL固有のドメインルールを統合し、欠陥推論とクライアント側のトレースを行う。
122のクライアントプログラムにおいて、DepRadarは90%のリコールと80%の精度で影響を受けるケースを特定し、他のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-14T12:41:39Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。