論文の概要: aiXcoder-7B: A Lightweight and Effective Large Language Model for Code Completion
- arxiv url: http://arxiv.org/abs/2410.13187v1
- Date: Thu, 17 Oct 2024 03:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:23:14.977545
- Title: aiXcoder-7B: A Lightweight and Effective Large Language Model for Code Completion
- Title(参考訳): aiXcoder-7B: コード補完のための軽量で効果的な大規模言語モデル
- Authors: Siyuan Jiang, Jia Li, He Zong, Huanyu Liu, Hao Zhu, Shukai Hu, Erlu Li, Jiazheng Ding, Yu Han, Wei Ning, Ge Li,
- Abstract要約: 本稿では,aiXcoder-7Bというコード補完のための軽量で効果的なLarge Language Model (LLM)を提案する。
既存のLLMと比較すると、aiXcoder-7Bのコード補完精度は高く、スケールは小さい(70億のパラメータ)。
我々は,aiXcoder-7Bの優位性を,(1)多目的学習,(2)多種多様なデータサンプリング戦略,(3)広範囲な高品質データという3つの重要な要因とみなす。
- 参考スコア(独自算出の注目度): 27.333482147065368
- License:
- Abstract: Large Language Models (LLMs) have been widely used in code completion, and researchers are focusing on scaling up LLMs to improve their accuracy. However, larger LLMs will increase the response time of code completion and decrease the developers' productivity. In this paper, we propose a lightweight and effective LLM for code completion named aiXcoder-7B. Compared to existing LLMs, aiXcoder-7B achieves higher code completion accuracy while having smaller scales (i.e., 7 billion parameters). We attribute the superiority of aiXcoder-7B to three key factors: (1) Multi-objective training. We employ three training objectives, one of which is our proposed Structured Fill-In-the-Middle (SFIM). SFIM considers the syntax structures in code and effectively improves the performance of LLMs for code. (2) Diverse data sampling strategies. They consider inter-file relationships and enhance the capability of LLMs in understanding cross-file contexts. (3) Extensive high-quality data. We establish a rigorous data collection pipeline and consume a total of 1.2 trillion unique tokens for training aiXcoder-7B. This vast volume of data enables aiXcoder-7B to learn a broad distribution of code. We evaluate aiXcoder-7B in five popular code completion benchmarks and a new benchmark collected by this paper. The results show that aiXcoder-7B outperforms the latest six LLMs with similar sizes and even surpasses four larger LLMs (e.g., StarCoder2-15B and CodeLlama-34B), positioning aiXcoder-7B as a lightweight and effective LLM for academia and industry. Finally, we summarize three valuable insights for helping practitioners train the next generations of LLMs for code. aiXcoder-7B has been open-souced and gained significant attention. As of the submission date, aiXcoder-7B has received 2,193 GitHub Stars.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード補完に広く使われており、研究者はLLMをスケールアップして精度を向上させることに重点を置いている。
しかし、より大きなLLMは、コード補完のレスポンス時間を増やし、開発者の生産性を低下させます。
本稿では,aiXcoder-7Bというコード補完のための軽量かつ効率的なLLMを提案する。
既存のLLMと比較して、aiXcoder-7Bはより小さなスケール(70億のパラメータ)で高いコード補完精度を実現する。
我々は,aiXcoder-7Bの優位性を,(1)多目的訓練の3つの重要な要因とみなす。
我々は3つのトレーニング目標を採用しており、そのうちの1つは提案したStructured Fill-In-the-Middle (SFIM) である。
SFIMは、コードの構文構造を考慮し、コードのためのLLMの性能を効果的に改善する。
2) 多様なデータサンプリング戦略。
彼らはファイル間の関係を考慮し、ファイル間のコンテキストを理解する上でLLMの能力を高める。
(3)広範囲な高品質なデータ。
我々は厳密なデータ収集パイプラインを構築し、aiXcoder-7Bをトレーニングするために合計1.2兆個のユニークなトークンを消費する。
この膨大な量のデータにより、aiXcoder-7Bは幅広いコードの分布を学習することができる。
本稿では,iXcoder-7Bを5つのコード補完ベンチマークと新しいベンチマークで評価する。
その結果、aiXcoder-7Bは、同じ大きさの最新の6つのLLMよりも優れており、さらに4つの大きなLLM(例:StarCoder2-15B、CodeLlama-34B)を超え、aiXcoder-7Bを軽量で効果的なLLMとして位置づけていることがわかった。
最後に、実践者がコードのために次世代のLLMをトレーニングするのを助けるために、重要な3つの洞察を要約する。
aiXcoder-7Bはオープンソース化され、注目されている。
提出日現在、aiXcoder-7Bは2,193個のGitHub Starを受け取った。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論、タスク、エージェントシステムなど、さまざまな領域で必須になっている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの'オープンクックブック'として機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Training LLMs to Better Self-Debug and Explain Code [36.604898865514365]
LLMの自己ソース能力を大幅に向上するトレーニングフレームワークを提案する。
コード説明と改良のための高品質なデータセットを収集する自動パイプラインを提案する。
我々は、新しい報酬設計で、成功と失敗の軌跡の両方について、教師付き微調整(SFT)およびさらに強化学習(RL)を行う。
論文 参考訳(メタデータ) (2024-05-28T23:20:24Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - StarCoder 2 and The Stack v2: The Next Generation [105.93298676368798]
私たちは3.3から4.3兆のトークンで3B、7B、15BパラメータでStarCoder2モデルをトレーニングします。
我々は、それらをCode LLMベンチマークの包括的なセットで徹底的に評価する。
私たちの大きなモデルであるStarCoder2-15Bは、同等の大きさの他のモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-29T13:53:35Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。