論文の概要: De-Hallucinator: Iterative Grounding for LLM-Based Code Completion
- arxiv url: http://arxiv.org/abs/2401.01701v2
- Date: Mon, 8 Jan 2024 14:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:11:59.063422
- Title: De-Hallucinator: Iterative Grounding for LLM-Based Code Completion
- Title(参考訳): De-Hallucinator: LLMベースのコード補完のための反復的なグラウンド
- Authors: Aryaz Eghbali, Michael Pradel
- Abstract要約: 公開ソースコードのデータセットに基づいてトレーニングされた大言語モデル(LLM)は、コード補完において新たな最先端の方法を確立した。
本稿では, LLMに基づくコード補完手法であるDe-Hallucinatorを提案する。
De-Hallucinatorは、カーソル前のコードだけでモデルをクエリするのに比べて、4つの最先端のLLMで予測されたコードを改善する。
- 参考スコア(独自算出の注目度): 21.417049430066616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large languages models (LLMs) trained on datasets of publicly available
source code have established a new state-of-the-art in code completion.
However, these models are mostly unaware of the code that already exists within
a specific project, preventing the models from making good use of existing
APIs. Instead, LLMs often invent, or "hallucinate", non-existent APIs or
produce variants of already existing code. Although the API information is
available to IDEs, the input size limit of LLMs prevents code completion
techniques from including all relevant context into the prompt. This paper
presents De-Hallucinator, an LLM-based code completion technique that grounds
the predictions of a model through a novel combination of retrieving suitable
API references and iteratively querying the model with increasingly suitable
context information in the prompt. The approach exploits the observation that
LLMs often predict code that resembles the desired completion, but that fails
to correctly refer to already existing APIs. De-Hallucinator automatically
identifies project-specific API references related to the code prefix and to
the model's initial predictions and adds these references into the prompt. Our
evaluation applies the approach to the task of predicting API usages in
open-source Python projects. We show that De-Hallucinator consistently improves
the predicted code across four state-of-the-art LLMs compared to querying the
model only with the code before the cursor. In particular, the approach
improves the edit distance of the predicted code by 23-51% and the recall of
correctly predicted API usages by 24-61% relative to the baseline.
- Abstract(参考訳): 公開ソースコードのデータセットでトレーニングされた大規模言語モデル(llm)は、コード補完の新たな最先端を確立した。
しかし、これらのモデルは、ほとんどが特定のプロジェクト内に存在するコードを知らないため、モデルが既存のapiをうまく利用できない。
代わりにllmは、存在しないapiを発明したり、すでに存在するコードの変種を作ったりすることが多い。
API情報はIDEで利用できるが、LLMの入力サイズ制限は、コード補完技術が関連するすべてのコンテキストをプロンプトに含めるのを防ぐ。
本稿では, LLMに基づくコード補完手法であるDe-Hallucinatorについて, 適切なAPI参照を検索し, より適切なコンテキスト情報でモデルを反復的にクエリすることで, モデルの予測を基礎とする手法を提案する。
このアプローチは、llmが望ましい補完によく似たコードを予測しているが、すでに存在するapiを正確に参照できないという観察を生かしている。
De-Hallucinatorは、コードプレフィックスとモデルの初期予測に関連するプロジェクト固有のAPI参照を自動的に識別し、これらの参照をプロンプトに追加する。
我々の評価は、オープンソースのPythonプロジェクトでのAPI使用率を予測するタスクにアプローチを適用します。
De-Hallucinatorは、カーソル前のコードだけでモデルをクエリするのに比べて、4つの最先端LCMで予測されたコードを改善する。
特に,提案手法は,予測コードの編集距離を23~51%改善し,予測されたAPI使用率をベースラインに対して24~61%改善する。
関連論文リスト
- CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification [27.67210769524277]
大規模言語モデル(LLM)はコード生成の分野で大きな進歩を遂げた。
LLMは時に、もっともらしいように見えるコードを生成するが、期待される要件を満たすことができず、正しく実行されないことがある。
本研究では,コード幻覚の概念を初めて紹介する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Iterative Refinement of Project-Level Code Context for Precise Code Generation with Compiler Feedback [29.136378191436396]
大規模言語モデル(LLM)は、コードの自動生成において顕著な進歩を示している。
しかし、LLMベースのコード生成を実際のソフトウェアプロジェクトに組み込むことが課題となっている。
本稿では,プロジェクトレベルのコードコンテキストを反復的に洗練するProCoderという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-25T14:07:27Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for
Evolving LLM APIs [8.403074015356594]
大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。
LLMはサイレントに更新され、非推奨にされる。
これはパフォーマンスの低下を引き起こし、迅速な設計選択に影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-11-18T17:11:12Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。