論文の概要: HiRoPE: Length Extrapolation for Code Models
- arxiv url: http://arxiv.org/abs/2403.19115v1
- Date: Thu, 28 Mar 2024 03:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:22:41.289164
- Title: HiRoPE: Length Extrapolation for Code Models
- Title(参考訳): HiRoPE: コードモデルの長さ外挿
- Authors: Kechi Zhang, Ge Li, Huangzhao Zhang, Zhi Jin,
- Abstract要約: 階層型回転位置埋め込み(HiRoPE)について紹介する。
HiRoPEは、ソースコードの階層構造に基づいた階層形式への伝統的な回転位置埋め込みを強化する。
我々は,この分野でのさらなる開発を促進するために,現実世界のコードプロジェクトに対して,新たな長大なコード理解タスクを導入する。
- 参考スコア(独自算出の注目度): 31.844937849746312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the limitation of context length in large language models for code-related tasks is the primary focus of this paper. Existing LLMs are constrained by their pre-trained context lengths, leading to performance issues in handling long complex code sequences. Inspired by how human programmers navigate code, we introduce Hierarchical Rotary Position Embedding (HiRoPE), a novel approach that enhances the traditional rotary position embedding into a hierarchical format based on the hierarchical structure of source code. HiRoPE offers easy integration into existing LLMs without extra training costs. Our method is extensively evaluated with various LLMs, demonstrating stable performance in tasks such as language modeling and long code completion. We also introduce a new long code understanding task with real-world code projects, in hopes of promoting further development in this code-related field. Theoretically and experimentally, we find that HiRoPE also addresses the out-of-distribution issue in position encoding. Our HiRoPE significantly expands the context length capabilities of LLMs, enabling inference at lengths exponentially greater than the training length.
- Abstract(参考訳): コード関連タスクの大規模言語モデルにおける文脈長の制限に対処することが,本論文の主要な焦点である。
既存のLLMは、事前訓練されたコンテキスト長によって制約され、長い複雑なコードシーケンスを扱う際のパフォーマンス上の問題を引き起こす。
人間のプログラマがどのようにコードをナビゲートするかに触発されて、階層的なロータリー位置埋め込み(HiRoPE)を導入します。
HiRoPEは、追加のトレーニングコストなしで既存のLLMに簡単に統合できる。
提案手法は様々なLLMを用いて広範囲に評価され,言語モデリングや長いコード補完といったタスクにおいて安定した性能を示す。
我々はまた、このコード関連分野におけるさらなる開発を促進するために、現実世界のコードプロジェクトに対して、新しい長いコード理解タスクを導入します。
理論的および実験的に、HiRoPEは位置符号化における分布外問題にも対処する。
我々のHiRoPEは、LLMの文脈長能力を著しく拡張し、トレーニング長よりも指数関数的に大きい長さでの推論を可能にします。
関連論文リスト
- BISCUIT: Scaffolding LLM-Generated Code with Ephemeral UIs in Computational Notebooks [14.640473990776691]
計算ノートブックに新たなワークフローを導入し,LLMベースのコード生成を短時間のUIステップで拡張する。
このワークフローは、JupyterLabの拡張機能であるBISCUITで、コードコンテキストに基づいてLLMが生成した短命なUIをユーザに提供します。
コード生成LLMにおけるUI中心のインタラクティブパラダイムに対する我々の研究結果の意義について論じる。
論文 参考訳(メタデータ) (2024-04-10T23:28:09Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。
しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことが課題となっている。
本稿では,プロジェクトレベルのコードコンテキストを反復的に洗練するProCoderという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language
Models [88.19189563759942]
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
パラメータの更新がないため、2Kまたは4Kのセグメントで事前訓練されたLLMは、パープレキシティを維持しながら最大2億の入力を一般化することができる。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation
with Large Language Models [12.708117108874083]
大きな言語モデル(LLM)は、ゼロショットで自然言語の意図を与えられたコードスニペットを生成する。
従来の研究は、タスク固有のプロンプト例でLLM生成プロセスを導く戦略として、インコンテキストラーニング(ICL)を探求していた。
本稿では,本論文の総合的研究について述べる。
自動コード生成シナリオにおけるLLMのためのPEFT技術。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。