論文の概要: Improving FIM Code Completions via Context & Curriculum Based Learning
- arxiv url: http://arxiv.org/abs/2412.16589v1
- Date: Sat, 21 Dec 2024 11:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:23.926045
- Title: Improving FIM Code Completions via Context & Curriculum Based Learning
- Title(参考訳): 文脈とカリキュラムに基づく学習によるFIMコード補完の改善
- Authors: Hitesh Sagtani, Rishabh Mehrotra, Beyang Liu,
- Abstract要約: コードリポジトリからハード・トゥ・コンプリート・パターンを抽出し,カリキュラムのデータセットを作成する。
意味解析ツールと静的解析ツールを用いて文脈例を生成する。
オンラインA/Bテストによるアプローチを検証するとともに,CAR(Completion Acceptance Rate)とCPR(Completion Persistence)の具体的な改善を実証する。
- 参考スコア(独自算出の注目度): 6.779631208983878
- License:
- Abstract: Fill-in-the-Middle (FIM) models play a vital role in code completion tasks, leveraging both prefix and suffix context to provide more accurate and contextually relevant suggestions. This paper presents approaches to improve FIM code completion while addressing the challenge of maintaining low latency for real-time coding assistance. We enhance FIM code completion by incorporating context and curriculum examples in the training process. We identify patterns where completion suggestions fail more frequently, revealing complexities that smaller language models struggle with. To address these challenges, we develop a curriculum dataset by extracting hard-to-complete patterns from code repositories and generate context examples using semantic and static analysis tools (e.g. TSC compiler). We fine-tune various sized models, including StarCoder and DeepSeek, on this enhanced dataset. Our evaluation encompasses three key dimensions: the Santa Coder FIM task, the Amazon CCEval benchmark, and a new Multi-Line Infilling evaluation benchmark derived from SWE-bench. Comprehensive ablation studies across multiple model sizes reveal that while all fine-tuned models show improvements, the performance gains are more pronounced for smaller parameter models and incorporating difficult-to-complete examples, as part of curriculum learning, improves the code completion performance. This finding is particularly significant given the latency constraints of code completion tasks. While larger models like GPT and Claude perform well in multi-line completions but are prohibitively challenging to use given high latency, and our fine-tuned models achieve a balance between performance and latency. Finally, we validate our approach through online A/B testing, demonstrating tangible improvements in Completion Acceptance Rate (CAR) and Completion Persistence Rate (CPR), with zero latency impact.
- Abstract(参考訳): ファイル・イン・ザ・ミドル(Fill-in-the-Middle、FIM)モデルはコード補完タスクにおいて重要な役割を担い、プレフィックスと接尾辞のコンテキストを利用してより正確で文脈的に関係のある提案を提供する。
本稿では、リアルタイム符号化支援における低レイテンシ維持の課題に対処しつつ、FIMのコード補完を改善するためのアプローチを提案する。
我々は、トレーニングプロセスに文脈やカリキュラムの例を組み込むことで、FIMのコード補完を強化する。
補完提案がより頻繁に失敗するパターンを特定し、より小さな言語モデルで苦労する複雑さを明らかにします。
これらの課題に対処するために、コードリポジトリからハード・トゥ・コンプリートパターンを抽出し、セマンティックおよび静的解析ツール(例えばTSCコンパイラ)を用いてコンテキストサンプルを生成するカリキュラムデータセットを開発する。
この強化データセットで、StarCoderやDeepSeekなど、さまざまなサイズのモデルを微調整します。
評価には、サンタコーダのFIMタスク、Amazon CCEvalベンチマーク、SWE-benchから派生した新しいマルチラインインフィル評価ベンチマークの3つの重要な側面が含まれている。
複数のモデルサイズにわたる包括的アブレーション研究により、すべての微調整モデルでは改善が見られたが、より小さなパラメータモデルでは性能が向上し、カリキュラム学習の一部として、難解な例を組み込むことで、コード補完性能が向上することが明らかとなった。
コード補完タスクの遅延制約を考えると、この発見は特に重要である。
GPTやClaudeのような大規模モデルは、複数行の補完でうまく機能するが、高いレイテンシを指定して使用するのは非常に困難であり、細調整されたモデルでは、パフォーマンスとレイテンシのバランスが取れます。
最後に,オンラインA/Bテストによるアプローチを検証するとともに,CAR(Completion Acceptance Rate)とCPR(Completion Persistence Rate)の具体的な改善を,遅延の影響をゼロにする。
関連論文リスト
- Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models [28.67532617021655]
外部ツールやAPIと統合された大規模言語モデル(LLM)は、コンテキスト内学習や微調整によって複雑なタスクにうまく対応している。
この進歩にもかかわらず、厳密な入力長制約のため、ツール検索の大規模化は依然として困難である。
本稿では,大規模なツール検索(MTR)タスクとして,大規模リポジトリからの事前検索戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T07:58:05Z) - Horizon-Length Prediction: Advancing Fill-in-the-Middle Capabilities for Code Generation with Lookahead Planning [17.01133761213624]
本研究では,各ステップに残るミドルトークンの数をモデルに予測する学習目標として,Horizon-Length Prediction (HLP)を提案する。
HLPはファイルレベルとリポジトリレベルの異なるベンチマークでFIMのパフォーマンスを最大24%向上させ、非現実的なポストプロセッシング手法を使わずに改善する。
論文 参考訳(メタデータ) (2024-10-04T02:53:52Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Conifer: Improving Complex Constrained Instruction-Following Ability of Large Language Models [23.17547206140014]
大規模言語モデルのための命令チューニングデータセットであるConiferを紹介する。
複雑な制約のある命令に従うために、Coniferでモデルをトレーニングします。
いくつかのインストラクション追従ベンチマークでは、我々の7Bモデルは最先端のオープンソース7Bモデルよりも優れています。
論文 参考訳(メタデータ) (2024-04-03T15:55:39Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。