論文の概要: Instruction Adherence in Coding Agent Configuration Files: A Factorial Study of Four File-Structure Variables
- arxiv url: http://arxiv.org/abs/2605.10039v1
- Date: Mon, 11 May 2026 06:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.564032
- Title: Instruction Adherence in Coding Agent Configuration Files: A Factorial Study of Four File-Structure Variables
- Title(参考訳): 符号化エージェント構成ファイルにおける命令順守:4つのファイル構造変数の要因検討
- Authors: Damon McMillan,
- Abstract要約: コーディングエージェントはセッション開始時に設定ファイルを読み、内部の規約に従うことが期待されている。
4つの操作変数を用いたこれらの選択の系統的要因分析を報告する。
4つの構造変数または3つの双方向相互作用は、多重検定補正後に検出可能なコントラストを生成しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier coding agents read configuration files (CLAUDE.md, AGENTS.md, Cursor Rules) at session start and are expected to follow the conventions inside them. Practitioners assume that structural choices (file size, instruction position, file architecture, contradictions in adjacent files) measurably affect adherence. We report a systematic factorial study of these choices using four manipulated variables, measuring compliance with a trivial target annotation across 1,650 Claude Code CLI sessions (16,050 function-level observations) on two TypeScript codebases, three frontier models (primarily Sonnet 4.6, with Opus 4.6 as a CLI-matched cross-model check and Opus 4.7 reported descriptively under a CLI-version confound), and five coding tasks. We use mixed-effects models with a Bayesian companion. None of the four structural variables or three two-way interactions produces a detectable contrast after multiple-testing correction. Size and conflict nulls are supported by affirmative-null Bayes factors (BF10 between 0.05 and 0.10); position and architecture nulls are failures to reject without Bayes-factor support. The largest effect we measured is within-session: each additional function the agent generates is associated with approximately 5.6% lower odds of compliance per step (OR = 0.944) within the session-length range we tested, though the relationship is non-monotonic rather than a constant per-step effect. This reproduces on a second TypeScript codebase and on Opus 4.6 at matched configuration; it was identified during analysis rather than pre-specified. Within the conditions tested, file-structure variables did not produce detectable contrasts; compliance varies systematically between coding tasks and across each session's sequence of generated functions.
- Abstract(参考訳): フロンティアコーディングエージェントはセッション開始時に設定ファイル(CLAUDE.md, AgentS.md, Cursor Rules)を読み、内部の規約に従うことが期待されている。
実践者は、構造的選択(ファイルサイズ、命令位置、ファイルアーキテクチャ、隣接ファイルの矛盾)が順応に影響を及ぼすと仮定する。
1,650個のコードCLIセッション(16,050個の関数レベルの観察)と3つのフロンティアモデル(主にSonnet 4.6、主にCLI準拠のクロスモデルチェックとしてOpus 4.6、CLI変換コンファウンドの下で記述的に報告されたOpus 4.7)、5つのコーディングタスク。
ベイズ伴奏を用いた混合効果モデルを用いる。
4つの構造変数または3つの双方向相互作用は、多重検定補正後に検出可能なコントラストを生成しない。
サイズとコンフリクトのnullは肯定的なヌルベイズ因子(BF10は0.05から0.10の間)でサポートされ、位置とアーキテクチャのnullはベイズ因子のサポートなしでは拒否できない。
エージェントが生成する各追加関数は、ステップ毎のコンプライアンスの確率(OR = 0.944)を約5.6%低くする。
これは第二のTypeScriptコードベースと一致した設定でOpus 4.6で再現される。
テストされた条件の中では、ファイル構造変数は検出可能なコントラストを生成しなかった。
関連論文リスト
- Constraint-Guided Multi-Agent Decompilation for Executable Binary Recovery [47.704311990064554]
脱コンパイルは、セキュリティ分析、マルウェアのリバースエンジニアリング、レガシーソフトウェアメンテナンスに不可欠である。
マルチレベル制約誘導型デコンパイル(MCGD)により,デコンパイルされたコードを再実行可能なソースに変換するマルチエージェントフレームワークを提案する。
本フレームワークは,84~97%の再実行性を実現し,28~89ポイントのベースラインデコンパイラ出力を改善した。
論文 参考訳(メタデータ) (2026-04-27T01:28:11Z) - Formal Architecture Descriptors as Navigation Primitives for AI Coding Agents [0.0]
正式なアーキテクチャ記述子をエージェントに提供することで,このナビゲーションオーバーヘッドを低減できるかどうかを検討する。
本稿では,S-expression アーキテクチャ記述子である intent.lisp を提案し,Forge ツールキットをオープンソース化する。
論文 参考訳(メタデータ) (2026-04-11T00:26:31Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents [9.719776777345364]
外部文書を自律的に処理する高特権のLLMエージェントは、タスクを自動化するためにますます信頼されている。
これらのエージェントには、最小限のセキュリティ監視で端末アクセス、制御、アウトバウンドネットワーク接続が与えられる。
emphTrusted Executor Dilemmaと呼ばれるこの信頼モデルの基本的脆弱性を測定する。
この脆弱性は、実装バグではなく、命令追従設計パラダイムの構造的な結果である。
論文 参考訳(メタデータ) (2026-03-12T12:35:46Z) - Variability-Aware Detection and Repair of Compilation Errors Using Foundation Models in Configurable Systems [1.2560438996036287]
基礎モデルは,変数によるコンパイルエラーを効果的に識別できることを示す。
コンパイルエラーの修正のため、GPT-OSS-20Bはコンパイル可能な修正を70%以上で生成した。
本研究は,現状の基盤モデルが,従来の変数認識分析を実践的かつ低効率に補完するものであることを示唆する。
論文 参考訳(メタデータ) (2026-01-23T13:59:34Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Improving Compiler Bug Isolation by Leveraging Large Language Models [14.679589768900621]
本稿では,AutoCBIという新しいコンパイラバグ分離手法を提案する。
我々は、広く使われているGCCおよびLLVMコンパイラの120の現実世界バグに対して、最先端のアプローチ(DiWi、RecBi、FuseFL)に対してAutoCBIを評価した。
特に、GCC/LLVMの上位1位では、AutoCBIは66.67%/69.23%、300%/340%、100%/57.14%のバグをRecBi、DiWi、FuseFLより分離している。
論文 参考訳(メタデータ) (2025-06-21T09:09:30Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデルの文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
ADACADは静的コントラストベースラインよりも平均QA精度14.21%(絶対)のデコードベースラインを一貫して上回り、要約の事実性を6.19倍(AlignScore)向上させることを示す。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。