論文の概要: On Pretraining for Project-Level Code Completion
- arxiv url: http://arxiv.org/abs/2510.13697v1
- Date: Wed, 15 Oct 2025 15:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.750284
- Title: On Pretraining for Project-Level Code Completion
- Title(参考訳): プロジェクトレベルコード補完の事前学習について
- Authors: Maksim Sapronov, Evgeniy Glukhov,
- Abstract要約: リポジトリレベルの事前トレーニングは、コードの大規模な言語モデルが広いコンテキストを活用できるようにするために一般的に使用される。
本研究では,OpenCoderにおける複数のリポジトリ処理戦略がコンテキスト内学習に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.061386715480643554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repository-level pretraining is commonly used to enable large language models for code to leverage codebase-wide context. This enhances their ability to generate accurate and context-aware code completions. In this work, we investigate how different repository-processing strategies affect in-context learning in OpenCoder, a 1.5B-parameter model. We extend its context window from 4,096 to 16,384 tokens by training on additional 1B tokens of curated repository-level data. Despite relying on a smaller dataset than competing models (which often use hundreds of billions of tokens), our model achieves comparable performance on the Long Code Arena benchmark. We find that various repository-processing techniques yield similarly strong results, with the primary gain coming from adapting to a new rotary positional embedding (RoPE) scaling parameter. Finally, we show that a simpler file-level training approach at the original sequence length remains highly effective, opening up repository-level code completion research to settings with more constrained data and compute resources.
- Abstract(参考訳): リポジトリレベルの事前トレーニングは、コードベース全体のコンテキストを活用するために、コードの大きな言語モデルを可能にするために一般的に使用される。
これにより、正確でコンテキスト対応のコード補完を生成する能力が向上する。
本研究では,1.5BパラメータモデルであるOpenCoderにおいて,異なるリポジトリ処理戦略がコンテキスト内学習に与える影響について検討する。
我々は、そのコンテキストウィンドウを4,096から16,384トークンに拡張し、キュレートされたリポジトリレベルのデータの1Bトークンを追加訓練します。
競合するモデル(数十億のトークンを使用することが多い)よりも小さなデータセットに依存していますが、私たちのモデルはLong Code Arenaベンチマークで同等のパフォーマンスを実現しています。
各種レポジトリ処理技術は,回転位置埋め込み(RoPE)スケーリングパラメータに適応することで,同様の結果が得られることがわかった。
最後に、元のシーケンス長でのよりシンプルなファイルレベルのトレーニングアプローチが依然として有効であることを示し、リポジトリレベルのコード補完研究を、より制約のあるデータと計算リソースで設定できることを示した。
関連論文リスト
- SynthCoder: A Synthetical Strategy to Tune LLMs for Code Completion [7.668823606571788]
コード補完は、ソフトウェア工学における大規模言語モデル(LLM)の顕著な応用である。
本稿では,Fill-in-the-Middle(FIM)コード補完タスクにおける最先端技術を実現するために,業界をリードするプラクティスを統合するモデルであるSynthCoderを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:23:49Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Code Summarization Beyond Function Level [0.213063058314067]
本研究では,関数レベルを超えたコード要約モデルの有効性について検討した。
微調整された最先端のCodeT5+ベースモデルは、コード要約に優れていた。
リポジトリレベルの要約は有望なポテンシャルを示したが、かなりの計算資源を必要とした。
論文 参考訳(メタデータ) (2025-02-23T20:31:21Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。