論文の概要: Automated Customization of LLMs for Enterprise Code Repositories Using Semantic Scopes
- arxiv url: http://arxiv.org/abs/2602.05780v1
- Date: Thu, 05 Feb 2026 15:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.008881
- Title: Automated Customization of LLMs for Enterprise Code Repositories Using Semantic Scopes
- Title(参考訳): セマンティックスコープを用いた企業コードリポジトリにおけるLCMの自動カスタマイズ
- Authors: Ulrich Finkler, Irene Manotas, Wei Zhang, Geert Janssen, Octavian Popescu, Shyam Ramji,
- Abstract要約: 本稿では,コード内のセマンティックスコープに基づいたLLM自動カスタマイズ手法を提案する。
リポジトリのデータを取り込み、セマンティックスコープとトレーニングデータペアを定式化するメカニズムは、モデルがリポジトリ固有の基盤となるパターンを学習するのに役立ちます。
適度にカスタマイズされたモデルのコード補完は、はるかに大きなキャパシティを持つ未カスタマイズモデルのコード補完よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 3.2942861117920916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion (CC) is a task frequently used by developers when working in collaboration with LLM-based programming assistants. Despite the increased performance of LLMs on public benchmarks, out of the box LLMs still have a hard time generating code that aligns with a private code repository not previously seen by the model's training data. Customizing code LLMs to a private repository provides a way to improve the model performance. In this paper we present our approach for automated LLM customization based on semantic scopes in the code. We evaluate LLMs on real industry cases with two private enterprise code repositories with two customization strategies: Retrieval-Augmented Generation (RAG) and supervised Fine-Tuning (FT). Our mechanism for ingesting the repository's data and formulating the training data pairs with semantic scopes helps models to learn the underlying patterns specific to the repository, providing more precise code to developers and helping to boost their productivity. The code completions of moderately sized customized models can be significantly better than those of uncustomized models of much larger capacity. We also include an analysis of customization on two public benchmarks and present opportunities for future work.
- Abstract(参考訳): コード補完 (CC) は、LLMベースのプログラミングアシスタントとの共同作業において、開発者が頻繁に使用するタスクである。
公開ベンチマークでのLLMのパフォーマンスが向上したにもかかわらず、LLMはいまだにモデルのトレーニングデータでこれまで見られていなかったプライベートコードリポジトリと整合したコードを生成するのに苦労している。
コードLLMをプライベートリポジトリにカスタマイズすることで、モデルのパフォーマンスを改善することができる。
本稿では,コードのセマンティックスコープに基づいたLLM自動カスタマイズ手法を提案する。
2つのプライベートな企業コードリポジトリを持つ実業界におけるLCMの評価には,2つのカスタマイズ戦略 – Retrieval-Augmented Generation (RAG) と supervised Fine-Tuning (FT) がある。
リポジトリのデータを取り込み、セマンティックスコープとトレーニングデータペアを定式化する当社のメカニズムは、モデルがリポジトリ固有のパターンを学習し、開発者により正確なコードを提供し、生産性を高めるのに役立ちます。
適度にカスタマイズされたモデルのコード補完は、はるかに大きなキャパシティを持つ未カスタマイズモデルのコード補完よりも大幅に優れている。
また、2つの公開ベンチマークにおけるカスタマイズの分析や、今後の作業の機会も含んでいます。
関連論文リスト
- Seed-Coder: Let the Code Model Curate Data for Itself [41.69830870792126]
8Bサイズの一連のオープンソースモデルであるSeed-Coderを紹介します。
我々のコードはモデル中心のデータパイプラインによって生成される。
Seed-Coderは、同じサイズのオープンソースモデルの中で最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-04T03:17:19Z) - Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks [42.79558714652442]
大きな言語モデル(LLM)は関数レベルのコード生成を約束しているが、リポジトリレベルのソフトウェアエンジニアリングタスクは依然として難しい。
本稿では,オープンソース LLM がエージェントベースアプローチを必要とせずに,リポジトリレベルのタスクを効果的に処理できるかどうかを検討する。
リポジトリコードグラフ構造をLLMのアテンション機構に統合するコードグラフモデル(CGM)を導入する。
論文 参考訳(メタデータ) (2025-05-22T17:00:55Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Retrieval-augmented code completion for local projects using large language models [0.0]
我々は、オープンソースのPythonファイル上に、生成型GPT-2と検索適応型RETROの2つのオープントランスフォーマーベースモデルをトレーニングする。
In-context search-augmented generation (RAG)により,トークンのJaccard類似性を用いてコードスニペットを検索するモデルの性能を改善する。
実験結果から、In-context RAGはコード補完ベースラインを26%以上改善し、RETROは同様のサイズのGPT-2ベースラインを12%改善した。
論文 参考訳(メタデータ) (2024-08-09T12:26:57Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。