論文の概要: Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
- arxiv url: http://arxiv.org/abs/2602.11988v1
- Date: Thu, 12 Feb 2026 14:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.865589
- Title: Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?
- Title(参考訳): Evaluating AgentS.md: Repository-Level Context Files Helpful for Coding Agents?
- Authors: Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev,
- Abstract要約: 実世界のタスクにコンテキストファイルが有効かどうかを検討する。
コンテクストファイルはリポジトリのコンテキストを提供しないのに比べてタスクの成功率を低下させる傾向がある。
我々は、コンテキストファイルからの不要な要求はタスクを難しくし、人間によるコンテキストファイルは最小限の要求だけを記述するべきであると結論付けている。
- 参考スコア(独自算出の注目度): 3.2610504259514754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A widespread practice in software development is to tailor coding agents to repositories using context files, such as AGENTS.md, by either manually or automatically generating them. Although this practice is strongly encouraged by agent developers, there is currently no rigorous investigation into whether such context files are actually effective for real-world tasks. In this work, we study this question and evaluate coding agents' task completion performance in two complementary settings: established SWE-bench tasks from popular repositories, with LLM-generated context files following agent-developer recommendations, and a novel collection of issues from repositories containing developer-committed context files. Across multiple coding agents and LLMs, we find that context files tend to reduce task success rates compared to providing no repository context, while also increasing inference cost by over 20%. Behaviorally, both LLM-generated and developer-provided context files encourage broader exploration (e.g., more thorough testing and file traversal), and coding agents tend to respect their instructions. Ultimately, we conclude that unnecessary requirements from context files make tasks harder, and human-written context files should describe only minimal requirements.
- Abstract(参考訳): ソフトウェア開発における一般的な実践は、AgentS.mdのようなコンテキストファイルを使って、手動または自動生成することで、コーディングエージェントをリポジトリに調整することである。
このプラクティスはエージェント開発者によって強く奨励されているが、そのようなコンテキストファイルが現実のタスクに実際に有効であるかどうかについては、現時点では厳密な調査は行われていない。
本研究では,一般的なリポジトリからのSWE-benchタスクの確立,エージェント-開発者推奨に従ってLLM生成コンテキストファイルの生成,開発者推奨コンテキストファイルを含むリポジトリからの新たな課題の収集,という2つの補完的な設定によるコーディングエージェントのタスク完了性能の評価を行う。
複数のコーディングエージェントやLLMを通して、コンテクストファイルは、リポジトリのコンテキストを提供しないのに比べてタスク成功率を減らし、推論コストも20%以上上昇する傾向にある。
振る舞い的には、LLMの生成したコンテキストファイルと開発者が提供するコンテキストファイルの両方が、より広範な探索(例えば、より徹底的なテストとファイルトラバーサル)を促進し、コーディングエージェントは命令を尊重する傾向がある。
究極的には、コンテキストファイルからの不要な要求はタスクを困難にし、人間によるコンテキストファイルは最小限の要件のみを記述するべきであると結論付けている。
関連論文リスト
- FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - Agent READMEs: An Empirical Study of Context Files for Agentic Coding [8.019313057979522]
我々は1,925のリポジトリから2,303のエージェントコンテキストファイルを調べ、それらの構造、保守、およびコンテンツを特徴付ける。
これらのファイルは静的なドキュメントではなく、コンフィグレーションコードのように進化し、頻繁で小さな追加によって維持される複雑で読みにくいアーティファクトであることが分かりました。
これらの結果は、開発者がコンテキストファイルを使用してエージェントを機能させる一方で、エージェント記述コードの安全性やパフォーマンスを保証するためのガードレールはほとんど提供せず、ツールやプラクティスの改善の必要性を強調していることを示している。
論文 参考訳(メタデータ) (2025-11-17T02:18:55Z) - Context Engineering for Multi-Agent LLM Code Assistants Using Elicit, NotebookLM, ChatGPT, and Claude Code [0.0]
大規模言語モデル(LLM)は、コード生成とソフトウェアエンジニアリングタスクの自動化において有望であることを示しているが、コンテキスト制限と知識ギャップのため、複雑なマルチファイルプロジェクトに苦戦することが多い。
ユーザ要求を明確にするIntent Translator (GPT-5)、ドメイン知識を注入するElicitを利用したセマンティック文献検索、コンテキスト理解のためのNotebookLMベースの文書合成、コード生成と検証のためのClaude Codeマルチエージェントシステムなど、複数のAIコンポーネントを組み合わせた新しいコンテキストエンジニアリングワークフローを提案する。
論文 参考訳(メタデータ) (2025-08-09T14:45:53Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。
我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文 参考訳(メタデータ) (2024-06-06T19:44:17Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。