論文の概要: aiXcoder-7B-v2: Training LLMs to Fully Utilize the Long Context in Repository-level Code Completion
- arxiv url: http://arxiv.org/abs/2503.15301v1
- Date: Wed, 19 Mar 2025 15:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:45.682671
- Title: aiXcoder-7B-v2: Training LLMs to Fully Utilize the Long Context in Repository-level Code Completion
- Title(参考訳): aiXcoder-7B-v2: リポジトリレベルのコード補完で長いコンテキストをフル活用するためのLLMのトレーニング
- Authors: Jia Li, Hao Zhu, Huanyu Liu, Xianjie Shi, He Zong, Yihong Dong, Kechi Zhang, Siyuan Jiang, Zhi Jin, Ge Li,
- Abstract要約: リポジトリレベルのコード補完は、リポジトリの長いコンテキストに基づいたコード補完を目的としています。
既存の研究では、リポジトリから長いコンテキストを入力として抽出し、大規模言語モデルを利用してコードを生成する。
我々はCoLTと呼ばれる新しい微調整手法を提案し、長距離コンテキストが関連する情報を保持することを強調した。
- 参考スコア(独自算出の注目度): 38.18528777497141
- License:
- Abstract: Repository-level code completion aims to complete code based on the long contexts of the repository. Existing studies extract long contexts from the repository as inputs and leverage Large Language Models (LLMs) to generate code. However, we reveal a severe limitation of LLMs, i.e., LLMs may ignore the information within long contexts in code completion. In other words, even the contexts contain useful information (e.g., relevant APIs or similar code), LLMs may fail to utilize this information. We think this limitation is caused by an inherent bias in LLMs, i.e., relying on nearby contexts and ignoring long-range contexts. To address this, we propose a novel fine-tuning approach named CoLT. The core idea of CoLT is to provide explicit supervision signals, which emphasize that long-range contexts may hold relevant information. Specifically, CoLT proposes a reinforcement learning-based training, which explicitly encourages models to utilize the information within long contexts and punishes models for ignoring long contexts. To support CoLT, we release CoLT-132K, a large-scale dataset with 132k samples across four languages, each containing long-context inputs. We apply CoLT to a popular LLM - aiXcoder-7B and release aiXcoder-7B-v2. We conduct extensive experiments on CoLT-132K and a public benchmark - CrossCodeEval. Our experiments yield the results: 1. Effectiveness. CoLT substantially improves aiXcoder-7B. aiXcoder-7B-v2 outperforms aiXcoder-7B by up to 44% in exact match. aiXcoder-7B-v2 becomes the state-of-the-art 7B model in code completion and even surpasses larger models. 2. Generalizability. The capability learned by CoLT can generalize to new languages. Besides, CoLT is model-agnostic and effectively improves multiple LLMs. 3. Enhanced Context Utilization Capability. CoLT significantly improves the capability of LLMs in utilizing the relevant information within long contexts.
- Abstract(参考訳): リポジトリレベルのコード補完は、リポジトリの長いコンテキストに基づいたコード補完を目的としています。
既存の研究では、リポジトリから長いコンテキストを入力として抽出し、LLM(Large Language Models)を利用してコードを生成する。
しかし、LLMの厳しい制限、すなわち、LLMはコード補完において長いコンテキスト内で情報を無視する可能性があることを明らかにする。
言い換えれば、コンテキストにも有用な情報(例えば、関連するAPIや類似のコード)が含まれていても、LLMはこの情報を利用することができないかもしれない。
この制限は、LLMに固有のバイアス、すなわち、近辺のコンテキストに依存したり、長距離のコンテキストを無視したりすることによるものだと考えています。
そこで本研究では,CoLTというファインチューニング手法を提案する。
CoLTの中核となる考え方は、長距離コンテキストが関連する情報を保持することを強調する明確な監視信号を提供することである。
特に、CoLTは強化学習に基づくトレーニングを提案しており、これは、モデルが長いコンテキスト内で情報を活用することを明示的に奨励し、長いコンテキストを無視したモデルに罰を与える。
CoLTをサポートするために、CoLT-132Kをリリースした。CoLT-132Kは、4つの言語に132kのサンプルを持ち、それぞれが長いコンテキスト入力を含む大規模なデータセットである。
一般的な LLM - aiXcoder-7B に CoLT を適用し,aiXcoder-7B-v2 をリリースする。
我々は、CoLT-132Kと公開ベンチマークであるCrossCodeEvalについて広範な実験を行う。
実験の結果は以下のとおりである。
1.有効性。
CoLTはaiXcoder-7Bを大幅に改善する。
aiXcoder-7B-v2 は aiXcoder-7B を44%の精度で上回っている。
iXcoder-7B-v2は、コード補完において最先端の7Bモデルとなり、より大きなモデルを超えている。
2. 一般化可能性。
CoLTが学んだ能力は、新しい言語に一般化できる。
さらに、CoLTはモデルに依存しず、複数のLCMを効果的に改善する。
3. コンテキスト利用能力の向上。
CoLTは、長いコンテキスト内で関連する情報を利用する際のLLMの能力を大幅に改善する。
関連論文リスト
- Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - aiXcoder-7B: A Lightweight and Effective Large Language Model for Code Processing [26.948462580950356]
本稿では,aiXcoder-7Bというコード補完のための軽量で効果的なLarge Language Model (LLM)を提案する。
既存のLLMと比較して、aiXcoder-7Bはより小さなスケール(70億のパラメータ)で高いコード補完精度を達成する。
我々は,aiXcoder-7Bの優位性を,(1)多目的学習,(2)多種多様なデータサンプリング戦略,(3)広範囲な高品質データという3つの重要な要因とみなす。
論文 参考訳(メタデータ) (2024-10-17T03:32:02Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
我々は,コンパイラフィードバックを用いてLLM生成コードを改善する新しいコード生成手法であるCoCoGenを提案する。
CoCoGenは、まず静的解析を利用して、生成されたコードとプロジェクトのコンテキストのミスマッチを特定する。
その後、コードリポジトリから抽出された情報を使用して、識別されたエラーを反復的に調整し、修正する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - Evaluating In-Context Learning of Libraries for Code Generation [35.57902679044737]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。