論文の概要: Do Agent Rules Shape or Distort? Guardrails Beat Guidance in Coding Agents
- arxiv url: http://arxiv.org/abs/2604.11088v1
- Date: Mon, 13 Apr 2026 07:10:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.382071
- Title: Do Agent Rules Shape or Distort? Guardrails Beat Guidance in Coding Agents
- Title(参考訳): エージェントは形状や歪むか? ガードレールはコーディングエージェントの誘導に勝る
- Authors: Xing Zhang, Guanghui Wang, Yanwei Cui, Wei Qiu, Ziyuan Li, Bing Zhu, Peiyang He,
- Abstract要約: ルールはパフォーマンスを7-14ポイント向上させるが、ランダムなルールは専門家が作成したものと同じくらい役に立つ。
個々のルールは、主に独立して有害であるが、最大50のルールを分解することなく、集合的に有用である。
- 参考スコア(独自算出の注目度): 9.989306175511238
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developers increasingly guide AI coding agents through natural language instruction files (e.g., CLAUDE.md, .cursorrules), yet no controlled study has measured whether these rules actually improve agent performance or which properties make a rule beneficial. We scrape 679 such files (25,532 rules) from GitHub and conduct the first large-scale empirical evaluation, running over 5,000 agent runs with a state-of-the-art coding agent on SWE-bench Verified. Rules improve performance by 7--14 percentage points, but random rules help as much as expert-curated ones -- suggesting rules work through context priming rather than specific instruction. Negative constraints ("do not refactor unrelated code") are the only individually beneficial rule type, while positive directives ("follow code style") actively hurt -- a pattern we analyze through the lens of potential-based reward shaping (PBRS). Moreover, individual rules are mostly harmful in isolation yet collectively helpful, with no degradation up to 50 rules. These findings expose a hidden reliability risk -- well-intentioned rules routinely degrade agent performance -- and provide a clear principle for safe agent configuration: constrain what agents must not do, rather than prescribing what they should.
- Abstract(参考訳): 開発者は、自然言語の命令ファイル(例えば、CLAUDE.md、.cursorrules)を通じてAIコーディングエージェントをガイドするようになっているが、これらのルールがエージェントのパフォーマンスを実際に改善するか、どのプロパティがルールを有益なものにするかは、制御された研究は行われていない。
GitHubから679のファイル(25,532のルール)を削除し、SWE-bench Verifiedの最先端のコーディングエージェントで5,000以上のエージェントを実行して、最初の大規模な経験的評価を行います。
ルールはパフォーマンスを7~14ポイント改善するが、ランダムなルールは専門家が作成したルールと同じくらい役に立つ -- 特定の命令ではなくコンテキストプライミングを通したルールを提案する。ネガティブな制約("リファクタリングしない"コード)が唯一、個人にとって有益なルールタイプであるのに対して、ポジティブなディレクティブ("フォローコードスタイル")は積極的に傷つけます -- 潜在的ベースの報酬シェーピング(PBRS)のレンズを通して分析するパターンです。
さらに、個々のルールは、主に独立して有害であるが、最大50のルールを分解することなく、集合的に有用である。
これらの発見は、隠された信頼性リスク(よく意図されたルールがエージェントのパフォーマンスを定期的に低下させる)を明らかにし、安全なエージェント設定のための明確な原則を提供する。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Deriving Character Logic from Storyline as Codified Decision Trees [67.01182739162142]
ロールプレイング(RP)エージェントは、さまざまな物語の文脈で一貫して行動するために行動プロファイルに依存する。
大規模物語データから実行可能かつ解釈可能な決定構造を誘導するデータ駆動型フレームワークであるCDT(Condified Decision Trees)を提案する。
論文 参考訳(メタデータ) (2026-01-15T05:12:43Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Executable Governance for AI: Translating Policies into Rules Using LLMs [1.388831902854619]
Policy-to-Tests(P2T)は、自然ポリシー文書を正規化された機械可読ルールに変換するフレームワークである。
フレームワークを単一のポリシーを超えてテストするために、一般的なフレームワーク、セクターガイダンス、エンタープライズ標準に適用します。
これらのAI生成ルールは、スパンレベルとルールレベルのメトリクスに関する強力な人間のベースラインと密接に一致し、ゴールドセットに関するロバストなアノテータ間の合意がある。
論文 参考訳(メタデータ) (2025-12-04T03:11:54Z) - RulePilot: An LLM-Powered Agent for Security Rule Generation [15.638534363355342]
ルールベースの検出は、事前に定義された文法論理に基づいて悪意のあるログを識別することが多い。
本稿では, LLMをベースとしたエージェントを用いて, 人間の専門知識を模倣したルールパイロットを提案する。
RulePilotを使用すると、セキュリティアナリストは文法に従うルールを書き留める必要はなく、単にアノテーションを提供するだけである。
論文 参考訳(メタデータ) (2025-11-15T13:59:16Z) - RuleAgent: Discovering Rules for Recommendation Denoising with Autonomous Language Agents [36.31706728494194]
RuleAgentは、現実世界のデータエキスパートを模倣して、レコメンデーションのルールを自律的に発見する。
LossEraser-非学習戦略は、パフォーマンスを損なうことなく、トレーニングを合理化する。
論文 参考訳(メタデータ) (2025-03-30T09:19:03Z) - AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。
AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。
コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文 参考訳(メタデータ) (2025-03-24T13:31:48Z) - RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。