論文の概要: Repository-Level Prompt Generation for Large Language Models of Code
- arxiv url: http://arxiv.org/abs/2206.12839v3
- Date: Mon, 5 Jun 2023 18:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 23:52:42.068835
- Title: Repository-Level Prompt Generation for Large Language Models of Code
- Title(参考訳): 大規模言語モデルのリポジトリレベルプロンプト生成
- Authors: Disha Shrivastava, Hugo Larochelle, Daniel Tarlow
- Abstract要約: 本稿では,提案手法を用いてサンプル固有のプロンプトを生成するフレームワークを提案する。
プロンプトプロポーザルはリポジトリ全体からコンテキストを取ります。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
- 参考スコア(独自算出の注目度): 28.98699307030983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of large language models (LLMs) of code and their use as
code assistants (e.g. Codex used in GitHub Copilot), techniques for introducing
domain-specific knowledge in the prompt design process become important. In
this work, we propose a framework called Repo-Level Prompt Generator that
learns to generate example-specific prompts using prompt proposals. The prompt
proposals take context from the entire repository, thereby incorporating both
the structure of the repository and the context from other relevant files (e.g.
imports, parent class files). Our technique doesn't require any access to the
weights of the LLM, making it applicable in cases where we only have black-box
access to the LLM. We conduct experiments on the task of single-line
code-autocompletion using code repositories taken from Google Code archives. We
demonstrate that an oracle constructed from our prompt proposals gives a
remarkably high relative improvement of 36% over Codex, showing the quality of
these proposals. Further, we show that when we train a model to predict a
prompt proposal, we can achieve significant performance gains over Codex and
other baselines. We release our code, data, and trained checkpoints at:
\url{https://github.com/shrivastavadisha/repo_level_prompt_generation}.
- Abstract(参考訳): コードの大規模言語モデル(LLM)の成功とコードアシスタント(GitHub Copilotで使用されるコーデックスなど)の使用により、迅速な設計プロセスにドメイン固有の知識を導入する技術が重要になる。
本研究では,提案手法を用いて実例固有のプロンプトを生成するRepo-Level Prompt Generatorというフレームワークを提案する。
プロンプトの提案はレポジトリ全体からコンテキストを取り、レポジトリの構造と関連するファイル(例えば、インポート、親クラスファイル)からのコンテキストの両方を組み込む。
我々の手法はLLMの重量に一切アクセスする必要がなく、LCMへのブラックボックスアクセスしか持たない場合に適用できる。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
提案書から構築したオラクルは,Codexよりも36%高い相対的な改善を実現し,これらの提案の質を示している。
さらに,プロンプト提案を予測するためにモデルをトレーニングすると,codexや他のベースラインよりも大幅なパフォーマンス向上が期待できることを示す。
私たちは、コード、データ、トレーニング済みのチェックポイントを次のようにリリースします。
関連論文リスト
- Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。
しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことが課題となっている。
本稿では,プロジェクトレベルのコードコンテキストを反復的に洗練するProCoderという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - A Prompt Learning Framework for Source Code Summarization [24.33455799484519]
本稿では,PromptCSと呼ばれるコード要約のための新しいプロンプト学習フレームワークを提案する。
PromptCSは、コード要約においてLLMのポテンシャルを解放するために連続的なプロンプトを生成するプロンプトエージェントを訓練する。
複数のプログラミング言語を含むCodeSearchNetデータセット上でPromptCSを評価する。
論文 参考訳(メタデータ) (2023-12-26T14:37:55Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - RepoFusion: Training Code Models to Understand Your Repository [12.621282610983592]
GitHub Copilotのようなコーディングアシスタントにおける大きな言語モデル(LLM)は、リポジトリに存在するコンテキストを理解するのに苦労している。
最近の研究は、推論中にリポジトリからコンテキストを使用するという約束を示している。
関連するリポジトリコンテキストを組み込むためのモデルをトレーニングするフレームワークであるRepoFusionを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:05:31Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。
人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。
CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2022-12-20T23:49:37Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。