論文の概要: De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding
- arxiv url: http://arxiv.org/abs/2401.01701v3
- Date: Wed, 19 Jun 2024 07:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:48:32.035940
- Title: De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding
- Title(参考訳): De-Hallucinator:反復接地によるコード生成タスクにおけるLLM幻覚の緩和
- Authors: Aryaz Eghbali, Michael Pradel,
- Abstract要約: 公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。
LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。
本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
- 参考スコア(独自算出の注目度): 18.129031749321058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) trained on datasets of publicly available source code have established a new state of the art in code generation tasks. However, these models are mostly unaware of the code that exists within a specific project, preventing the models from making good use of existing APIs. Instead, LLMs often invent, or "hallucinate", non-existent APIs or produce variants of already existing code. This paper presents De-Hallucinator, a technique that grounds the predictions of an LLM through a novel combination of retrieving suitable API references and iteratively querying the model with increasingly suitable context information in the prompt. The approach exploits the observation that predictions by LLMs often resemble the desired code, but they fail to correctly refer to already existing APIs. De-Hallucinator automatically identifies project-specific API references related to the model's initial predictions and adds these references into the prompt. Unlike retrieval-augmented generation (RAG), our approach uses the initial prediction(s) by the model to iteratively retrieve increasingly suitable API references. Our evaluation applies the approach to two tasks: predicting API usages in Python and generating tests in JavaScript. We show that De-Hallucinator consistently improves the generated code across five LLMs. In particular, the approach improves the edit distance by 23.3-50.6% and the recall of correctly predicted API usages by 23.9-61.0% for code completion, and improves the number of fixed tests that initially failed because of hallucinations by 63.2%, resulting in a 15.5% increase in statement coverage for test generation.
- Abstract(参考訳): 公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおいて、新たな最先端技術を確立した。
しかし、これらのモデルは、主に特定のプロジェクトに存在するコードに気づいておらず、モデルが既存のAPIをうまく利用しない。
代わりに、LLMは、しばしば既存のAPIを発明したり、"幻滅"したり、既存のコードの変種を生成したりする。
本稿では、適切なAPI参照を検索し、プロンプト内でより適切なコンテキスト情報でモデルを反復的にクエリすることで、LCMの予測を基礎とするDe-Hallucinatorを提案する。
このアプローチでは、LLMによる予測が望ましいコードによく似ているが、既存のAPIを正しく参照することができない、という観察を活用する。
De-Hallucinatorは、モデルの初期予測に関連するプロジェクト固有のAPI参照を自動的に識別し、これらの参照をプロンプトに追加する。
検索拡張生成(RAG)とは異なり,本手法ではモデルによる初期予測を用いて,より適切なAPI参照を反復的に取得する。
評価では,PythonでのAPI使用率の予測とJavaScriptによるテスト生成という,2つのタスクにアプローチを適用した。
De-Hallucinator は 5 つの LLM にまたがって生成したコードを改善する。
特に、この手法は編集距離を23.3~50.6%改善し、コード補完のAPI使用率を23.9~61.0%リコールし、幻覚によって最初に失敗した固定テストの数を63.2%改善し、テスト生成のステートメントカバレッジが15.5%増加した。
関連論文リスト
- MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - How and Why LLMs Use Deprecated APIs in Code Completion? An Empirical Study [13.633501449498402]
大規模言語モデル(LLM)では、ライブラリの迅速かつ継続的な進化のために、コード補完は、正しく最新のアプリケーションプログラミングインタフェース(API)を使用するのに苦労する可能性がある。
この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。
我々は,textscReplaceAPI と textscInsertPrompt の2つの軽量固定手法を提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:10Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Citation-Enhanced Generation for LLM-based Chatbots [11.973280288131225]
大規模言語モデル(LLM)は多様なシナリオにまたがる強力な汎用知性を示す。
幻覚コンテンツは反応で生成され、適用性が著しく制限される。
提案手法は,検索議論と組み合わせた,ポストホックなCitation-Enhanced Generation手法である。
論文 参考訳(メタデータ) (2024-02-25T11:24:41Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - (Why) Is My Prompt Getting Worse? Rethinking Regression Testing for
Evolving LLM APIs [8.403074015356594]
大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。
LLMはサイレントに更新され、非推奨にされる。
これはパフォーマンスの低下を引き起こし、迅速な設計選択に影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-11-18T17:11:12Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。