論文の概要: A measurement substrate for agentic Kubernetes operations: Methodology and a case study in retrieval-compounding falsification
- arxiv url: http://arxiv.org/abs/2605.23058v1
- Date: Thu, 21 May 2026 21:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.111014
- Title: A measurement substrate for agentic Kubernetes operations: Methodology and a case study in retrieval-compounding falsification
- Title(参考訳): エージェントKubernetes操作のための測定基板--検索合成ファルシフィケーションの方法論と事例研究
- Authors: Joshua Odmark, Gideon Rubin, Deon van der Vyver,
- Abstract要約: 自律的な操作エージェントに関する実証的な主張は、ほとんど不可能である。
コードエージェントは「機能する」検証基板を持ち、高速でファルサブルで地味な信号に変換する。
ターゲットクラスタに障害を注入するクローズドループ計測フレームワークである Agent-breakage を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical claims about autonomous Kubernetes operations agents are largely unfalsifiable. Published work reports observational results without controlled comparisons against an agent-disabled baseline, selection bias is endemic, pre-registered decision matrices are absent, and samples are typically too small for the noise level of the underlying scoring system. The cause is the same gap that limits the agents themselves: code agents have a verification substrate that turns "did it work" into a fast, falsifiable, ground-truth signal, and operations has nothing equivalent. We present agent-breakage, a closed-loop measurement framework that injects faults into a target Kubernetes cluster, observes how an autonomous agent responds, scores the response on four axes against ground truth, and accumulates outcome-labeled (state, action, outcome) tuples. The framework distinguishes framework error from reasoning error, supports a true off-condition control via a deterministic-embedder mechanism, and enforces pre-registered decision matrices. We use it as a case study to test whether retrieval over past postmortems compounds an agent's capability. The methodological payload is three confounds the substrate caught during that case study, each of which would have produced a wrong published claim on a less instrumented version of the same work: a pgvector index bug, a +19% selection-bias artifact, and small-sample estimates that overstated effects by roughly 3x. The retrieval result itself is a partial falsification: 1 of 3 dense-corpus scenarios significant at p<0.05, pooled effect +3.9 percentage points, not significant at n=60. A within-scenario corpus-density sweep at 360 runs shows that mechanistic alignment of near-neighbors dominates raw count. The framework is released open source.
- Abstract(参考訳): 自律的なKubernetesオペレーションエージェントに関する実証的な主張は、ほとんど不可能だ。
公開作業報告では, エージェント障害ベースラインとの比較を行なわず, 選択バイアスが固有であり, 事前登録された決定行列が欠落しており, サンプルは一般に, 基礎となるスコアリングシステムのノイズレベルには小さすぎることが報告されている。
原因はエージェント自身を制限しているのと同じギャップである: コードエージェントは「機能する」検証基板を持ち、高速でファリザブルで地道的な信号に変換する。
ターゲットのKubernetesクラスタに障害を注入し、自律的なエージェントがどのように反応するかを観察し、地上の真実に対して4つの軸で応答をスコアし、結果ラベル付き(状態、動作、結果)タプルを蓄積する、クローズドループ測定フレームワークである Agent-breakageを提案する。
このフレームワークは、フレームワークエラーと推論エラーを区別し、決定論的-埋め込み機構を介して真の外部制御をサポートし、事前登録された決定行列を強制する。
過去の死後の検索がエージェントの能力に影響を及ぼすかどうかをケーススタディとして用いた。
この方法のペイロードは、このケーススタディで捕獲された基板の3つのコンバウンドであり、それぞれが、同じ作品のより測定の少ないバージョンで間違ったクレームを生成していた。
3つの密集体シナリオのうち1つはp<0.05で有意であり、プール効果+3.9パーセンテージはn=60で有意ではない。
360ランでスセオリオ内コーパス密度スイープは、近隣の機械的アライメントが生数を支配していることを示している。
フレームワークはオープンソースとしてリリースされている。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing [9.271196825503417]
大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
AEGISは、未解決の投機から、クローズドな事実ベース上の法医学的検証へ、検出をシフトする新しいマルチエージェントフレームワークである。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
論文 参考訳(メタデータ) (2026-03-21T04:12:04Z) - To Throw a Stone with Six Birds: On Agents and Agenthood [0.0]
Six Birds Theory (SBT)は、マクロな物体を原始体ではなく誘導的閉包として扱う。
SBT内では,タイプ正当性評価を行う。
我々はこの契約を4つのチェック可能なコンポーネントを用いて有限制御システムで運用する。
論文 参考訳(メタデータ) (2026-02-03T10:46:23Z) - Greedy Is Enough: Sparse Action Discovery in Agentic LLMs [11.62669179647184]
経験的証拠は、少数のアクションだけが、所定のデプロイメントのパフォーマンスに有意義に影響を及ぼすことを示唆している。
この観察によって動機づけられた行動が構造化された空間性仮定によって制御される文脈線形報酬モデルについて検討する。
本研究は,スパース行動発見を大アクション意思決定の基礎となる基本原理とみなす。
論文 参考訳(メタデータ) (2026-01-13T07:15:32Z) - Optimal Detection for Language Watermarks with Pseudorandom Collision [28.84134119819056]
階層的な2層分割によって構造を捉える統計的枠組みを導入する。
その中核は最小単位の概念であり、単位間の独立として扱うことができる最小の群は、単位内部への依存を許容する。
Gumbel-maxおよび逆変換透かしの適用により、我々のフレームワークはクローズドフォーム最適規則を生成する。
論文 参考訳(メタデータ) (2025-10-24T20:21:52Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。