論文の概要: LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
- arxiv url: http://arxiv.org/abs/2605.28876v1
- Date: Tue, 26 May 2026 06:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.94591
- Title: LogDx-CI: Benchmarking Log Reduction Tools for LLM Root-Cause Diagnosis
- Title(参考訳): LogDx-CI: LLM Root-Cause診断のためのベンチマークログ削減ツール
- Authors: Bowen Qin,
- Abstract要約: CIの障害ログは大きい(中央5k行、このコーパスで最大200k)し、ノイズがあります。
デバッグしようとするコーディングエージェントは、上流ツールに依存して、ログを管理可能なコンテキストに還元する。
11のコンテキスト推論ツールを比較するベンチマークであるLogDx-CIを紹介します。
- 参考スコア(独自算出の注目度): 7.571129923187892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CI failure logs are large (median 5k lines, max 200k in this corpus) and noisy. Coding agents that try to debug them depend on an upstream tool to reduce the log to a manageable context, but the field has had no public empirical comparison of which reductions preserve enough evidence for downstream LLM diagnosis. We introduce LogDx-CI, a benchmark that compares 11 context-reduction tools (raw, tail, grep, three RTK modes, two real LLM map-reduce summarizers, three hybrid routers) on 35 real GitHub Actions failure cases, scored by 3 LLM debugger families (Claude Haiku 4.5, Claude Sonnet 4.6, OpenAI gpt-5-mini) plus a Sonnet 4.6 tool-using agent. We report three load-bearing findings. (1)~Hybrid grep+tail routers dominate the cost-quality Pareto frontier; the top two methods score 0.670 / 0.666 at $\sim$ \$0.03 per case, same-ballpark quality as standalone grep at $4.5\times$ fewer tokens. (2)~In the agent-loop regime, the quality range across reduction tools collapses $7\times$ (single-shot spread 0.42 $\to$ agent-loop spread 0.059); the agent rescues weak contexts via follow-up tool calls. However, cost differences persist: weak contexts force the agent to issue 2--4$\times$ more tool calls to recover. (3)~A cross-family LLM-summary pair (gpt-5-mini summarizer feeding a Claude Haiku debugger) beats the same-family pair by $+0.071$ averaged across four diagnoser variants, falsifying the self-call-bias hypothesis on this task. The gpt-5-mini summarizer is also the agent-loop \#1 method (score 0.749) at $0.37$ tool-calls per case and $10\times$ lower reducer cost than the Haiku summarizer (\$0.18 vs \$1.75 per case). All data, code, per-case bundles, and reproducibility infrastructure are public.
- Abstract(参考訳): CIの障害ログは大きい(中央5k行、このコーパスで最大200k)し、ノイズがあります。
それらをデバッグしようとするコーディングエージェントは、ログを管理可能なコンテキストに還元するアップストリームツールに依存するが、ダウンストリームLSM診断の十分な証拠を保持するための公開的な比較は行われていない。
このベンチマークでは、実際のGitHub Actions障害ケース35件(Claude Haiku 4.5、Claude Sonnet 4.6、OpenAI gpt-5-mini)とツール使用エージェント(Sonnet 4.6)を比較した。
負荷のある3つの所見を報告する。
1)–Hybrid grep+tailルータはコスト品質のParetoフロンティアを支配し、上位2つのメソッドは0.670 / 0.666を$\sim$ \$0.03、スタンドアロンのgrepと同じボールパーク品質は$4.5\times$少額トークンである。
2)エージェントループ体制では、リダクションツール間の品質範囲は7\times$(シングルショットスプレッド0.42$\to$エージェントループスプレッド0.059)を崩壊させ、フォローアップツールコールを通じて弱いコンテキストを救助する。
弱いコンテキストでは、エージェントは2--4$\times$より多くのツールコールをリカバリせざるを得ない。
(3)~ クロスファミリーLCM-サマリーペア(gpt-5-miniでクロードハイクデバッガを摂る)が4つの診断変数の平均$+0.071$で同じファミリーペアを破り、このタスクにおける自己呼び出しバイアス仮説を偽る。
gpt-5-mini 要約器は、エージェントループ \#1 メソッド (スコア 0.749) で、ケース当たり0.37$ツールコールと10\times$還元器コストを Haiku 要約器(ケース当たり0.18対 \$1.75)より低くする。
すべてのデータ、コード、ケース単位のバンドル、再現性インフラストラクチャは公開されています。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Metal-Sci: A Scientific Compute Benchmark for Evolutionary LLM Kernel Search on Apple Silicon [6.599344783327054]
Metal-SciはApple Silicon Metal計算カーネルの10タスクベンチマークである。
各タスクはCPU参照、ルーフラインアンコールされたフィットネス機能、および保持可能な一般化サイズを出荷する。
We reported matched single-model sweeps of Claude Opus 4.7, Gemini 3.1 Pro, GPT 5.5 on M1 Pro。
論文 参考訳(メタデータ) (2026-05-10T19:11:26Z) - Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization [4.365822392824561]
本稿では,SIMP最適化のためのオンラインコントローラとして,大規模言語モデルが機能するフレームワークを提案する。
ハードグレーネスゲートは未熟なバイナライゼーションを防止し、メタ最適化ループは第2パスを使用してエージェントの呼び出し周波数を調整する。
エージェントはすべてのベンチマークの最終的なコンプライアンスを達成する:$5.7%$から$-1%、すべてのソリューションが完全にバイナリである。
論文 参考訳(メタデータ) (2026-03-26T07:14:31Z) - ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文 参考訳(メタデータ) (2026-01-03T13:41:33Z) - Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。