論文の概要: A Dataset of Agentic AI Coding Tool Configurations
- arxiv url: http://arxiv.org/abs/2605.08435v1
- Date: Fri, 08 May 2026 19:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 15:18:16.247201
- Title: A Dataset of Agentic AI Coding Tool Configurations
- Title(参考訳): エージェントAI符号化ツール構成のデータセット
- Authors: Matthias Galster, Seyedmoein Mohsenimofidi, Levi Böhme, Jai Lal Lulla, Muhammad Auwal Abubakar, Christoph Treude, Sebastian Baltes,
- Abstract要約: データセットには5つのツール(Claude Code、GitHub Copilot、OpenAI Codex、Cursor、Gemini)にわたる4,738のリポジトリと8つの設定メカニズムが含まれている。
我々は15,591個の構成アーティファクト、これらの構成アーティファクトに関連する18,167個の構成ファイルの全内容、そして148,519個のAI共著コミットを収集した。
このデータは、コンテキストエンジニアリング、AIツールの採用パターン、人間とAIのコラボレーションに関する研究をサポートする。
- 参考スコア(独自算出の注目度): 11.087963504113937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI coding tools such as Claude Code and OpenAI Codex execute multi-step coding tasks with limited human oversight. To steer these tools, developers create repository-level configuration artifacts (e.g., Markdown files) for configuration mechanisms such as Context Files, Skills, Rules, and Hooks. There is no curated dataset yet that captures these configurations at scale. This dataset, collected from open-source GitHub repositories, fills that gap. We selected 40,585 actively maintained repositories through metadata filtering, classified them using GPT-5.2 to identify 36,710 as belonging to engineered software projects, and systematically detected configuration artifacts in these repositories. The dataset covers 4,738 repositories across five tools (Claude Code, GitHub Copilot, OpenAI Codex, Cursor, Gemini) and eight configuration mechanisms. We collected 15,591 configuration artifacts, the full content of 18,167 configuration files associated with these configuration artifacts, and 148,519 AI-co-authored commits. The dataset and the construction pipeline are publicly available on Zenodo under CC BY 4.0. An interactive website allows researchers to browse and explore the data. This data supports research on context engineering, AI tool adoption patterns, and human-AI collaboration.
- Abstract(参考訳): Claude CodeやOpenAI CodexといったエージェントAIコーディングツールは、人間の監視に制限のあるマルチステップコーディングタスクを実行する。
これらのツールをステアリングするために、開発者はContext Files、Skills、Rules、Hooksなどの設定メカニズム用のリポジトリレベルの設定アーティファクト(Markdownファイルなど)を作成する。
これらの構成を大規模にキャプチャする、キュレートされたデータセットはまだ存在しない。
このデータセットは、オープンソースのGitHubリポジトリから収集され、そのギャップを埋める。
メタデータフィルタリングにより40,585個のリポジトリを積極的に管理し,GPT-5.2を用いて分類し,ソフトウェアプロジェクトに属する36,710個のリポジトリを同定し,それらのリポジトリ内の構成アーティファクトを体系的に検出した。
データセットには5つのツール(Claude Code、GitHub Copilot、OpenAI Codex、Cursor、Gemini)にわたる4,738のリポジトリと8つの設定メカニズムが含まれている。
我々は15,591個の構成アーティファクト、これらの構成アーティファクトに関連する18,167個の構成ファイルの全内容、そして148,519個のAI共著コミットを収集した。
データセットと構築パイプラインは、CC BY 4.0の下でZenodoで公開されている。
インタラクティブなウェブサイトでは、研究者がデータを閲覧し、探索することができる。
このデータは、コンテキストエンジニアリング、AIツールの採用パターン、人間とAIのコラボレーションに関する研究をサポートする。
関連論文リスト
- Configuring Agentic AI Coding Tools: An Exploratory Study [11.643977424519]
エージェントAIコーディングツールの構成機構を体系的に分析し、Claude Code、GitHub Copilot、Cursor、Gemini、Codexを取り上げる。
8つの設定メカニズムを特定し,2,926のGitHubリポジトリを実証的に調査し,それらが採用されているかどうかと方法を検討した。
次に、ツール間で利用可能な3つのメカニズムであるContext Files、Skills、Subagentsについて詳しく調べます。
論文 参考訳(メタデータ) (2026-02-16T12:24:28Z) - AIDev: Studying AI Coding Agents on GitHub [9.1677959533705]
AIDevはエージェントによるプルリクエスト(Agentic-PR)に焦点を当てた大規模なデータセットで、現実のGitHubリポジトリに導入しています。
AIDevは、OpenAI Codex、Devin、GitHub Copilot、Cursor、Claude Codeという5つのエージェントによって生成された932,791のエージェント-PRを集約する。
さらに、AIDevには、100以上の星を持つ2,807のリポジトリから33,596のAgentic-PRのキュレートされたサブセットが含まれており、コメント、レビュー、コミット、関連する問題などのさらなる情報を提供している。
論文 参考訳(メタデータ) (2026-02-09T20:45:58Z) - Context Engineering for AI Agents in Open-Source Software [13.236926479239754]
GenAIベースのコーディングアシスタントは、ソフトウェア開発を混乱させた。
彼らの次の世代はエージェントベースで、より自律的で、潜在的には人間の監視なしで活動する。
ひとつの課題は、AIエージェントに対して、彼らが運用するソフトウェアプロジェクトに関する十分なコンテキストを提供することだ。
論文 参考訳(メタデータ) (2025-10-24T12:55:48Z) - Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。
サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。
スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文 参考訳(メタデータ) (2025-10-22T05:18:28Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - Boidae: Your Personal Mining Platform [0.21485350418225244]
ユーザによって制御され、カスタマイズされたBoaインスタレーションのファミリーであるBoidaeを紹介します。
特に、Boidaeは任意のGitリポジトリから生成されたカスタムデータセットを作成することができる。
Boidaeのスクリプトとそれが構築するインフラストラクチャはすべてオープンソースである。
論文 参考訳(メタデータ) (2024-01-20T02:44:47Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge
Base Population [95.0099875111663]
DeepKEは、名前付きエンティティ認識、関係抽出、属性抽出など、さまざまな情報抽出タスクを実装している。
DeepKEを使えば、開発者や研究者はデータセットやモデルをカスタマイズして、要求に応じて構造化されていないデータから情報を抽出できる。
論文 参考訳(メタデータ) (2022-01-10T13:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。