論文の概要: CIDR: A Large-Scale Industrial Source Code Dataset for Software Engineering Research
- arxiv url: http://arxiv.org/abs/2605.12153v1
- Date: Tue, 12 May 2026 14:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.900766
- Title: CIDR: A Large-Scale Industrial Source Code Dataset for Software Engineering Research
- Title(参考訳): CIDR: ソフトウェア工学研究のための大規模産業用ソースコードデータセット
- Authors: Vladislav Savenkov,
- Abstract要約: データセットは、138言語にまたがる2,440のリポジトリで構成され、総コード数は373万行で、リポジトリごとのメタデータが構造化されている。
このデータセットは、コードインテリジェンス、ソフトウェア品質分析、コード言語モデルの事前トレーニングと微調整、開発者行動研究、エージェント評価ベンチマークの構築をサポートすることを意図している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Curated Industrial Developer Repository (CIDR), a large-scale dataset of real-world software repositories collected through direct collaboration with 12 industrial partner organizations. The dataset comprises 2,440 repositories spanning 138 programming languages and totalling 373 million lines of code, accompanied by structured per-repository metadata. Unlike existing code corpora derived from public open-source platforms, CIDR consists exclusively of proprietary production codebases contributed under formal data sharing agreements, covering application domains including enterprise web and mobile development, fintech, and custom software consultancy. All repositories were processed through a multi-stage pipeline encompassing structured partner onboarding, two-stage quality selection combining automated metadata filtering with manual code review, and a deterministic anonymization pipeline covering the full version control history. The dataset is intended to support research in code intelligence, software quality analysis, pre-training and fine-tuning of code language models, developer behaviour studies, and construction of agent evaluation benchmarks. Access is provided under a restricted commercial license; details are available at https://fermatix.ai/#Contact.
- Abstract(参考訳): 12の産業パートナー組織と直接のコラボレーションを通じて収集された,現実世界のソフトウェアリポジトリの大規模データセットであるCurated Industrial Developer Repository(CIDR)を紹介した。
データセットは、138のプログラミング言語にまたがる2,440のレポジトリと、合計373万行のコードで構成され、リポジトリごとのメタデータが構造化されている。
オープンソースプラットフォームから派生した既存のコードコーパスとは異なり、CIDRは、エンタープライズWebやモバイル開発、フィンテック、カスタムソフトウェアコンサルタントを含むアプリケーションドメインをカバーする、正式なデータ共有契約の下で提供されたプロプライエタリな生産コードベースのみで構成されている。
すべてのリポジトリは、構造化されたパートナーのオンボードを含む多段階パイプライン、自動メタデータフィルタリングと手作業によるコードレビューを組み合わせた2段階の品質選択、全バージョンコントロール履歴をカバーする決定論的匿名化パイプラインを通じて処理された。
このデータセットは、コードインテリジェンス、ソフトウェア品質分析、コード言語モデルの事前トレーニングと微調整、開発者行動研究、エージェント評価ベンチマークの構築をサポートすることを意図している。
アクセスは制限付きの商用ライセンスで提供される。詳細はhttps://fermatix.ai/#Contact.orgで確認できる。
関連論文リスト
- Declarative Policy Control for Data Spaces: A DSL-Based Approach for Manufacturing-X [1.954313858999314]
本稿では,データ空間コネクタによる主権データ共有のための宣言的,人間可読,マシン実行可能なポリシー定義を実現するために,ドメイン固有言語を活用する手法を提案する。
DSLは、命令型コードを書くことなく、ドメインの専門家にきめ細かいデータガバナンス要件を指定できるようにします。
論文 参考訳(メタデータ) (2025-11-27T14:45:58Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - Bridging the PLC Binary Analysis Gap: A Cross-Compiler Dataset and Neural Framework for Industrial Control Systems [14.826593801448032]
PLC-BEADは4つの主要な産業用コンパイラにまたがる700以上のPLCプログラムから2431のコンパイル済みバイナリを含むデータセットである。
この新しいデータセットは、それぞれのバイナリを独自のStructured Textソースコードと標準化された機能ラベルと一意にペアリングする。
バイナリコード解析のためのトランスフォーマーベースのフレームワークであるPLCEmbedを用いて,データセットの有用性を実証する。
論文 参考訳(メタデータ) (2025-02-27T03:27:37Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeFuse-Query: A Data-Centric Static Code Analysis System for
Large-Scale Organizations [21.688988418676878]
CodeFuse-Queryは、コード解析をデータ計算タスクとして再定義する。
システムは毎日100億行以上のコードをスキャンし、300以上のタスクをサポートする。
論文 参考訳(メタデータ) (2024-01-03T06:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。