Fugu-MT 論文翻訳(概要): De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding

論文の概要: De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding

arxiv url: http://arxiv.org/abs/2401.01701v3
Date: Wed, 19 Jun 2024 07:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 05:48:32.035940
Title: De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding
Title（参考訳）: De-Hallucinator:反復接地によるコード生成タスクにおけるLLM幻覚の緩和
Authors: Aryaz Eghbali, Michael Pradel,
Abstract要約: 公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。 LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
参考スコア（独自算出の注目度）: 18.129031749321058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) trained on datasets of publicly available source code have established a new state of the art in code generation tasks. However, these models are mostly unaware of the code that exists within a specific project, preventing the models from making good use of existing APIs. Instead, LLMs often invent, or "hallucinate", non-existent APIs or produce variants of already existing code. This paper presents De-Hallucinator, a technique that grounds the predictions of an LLM through a novel combination of retrieving suitable API references and iteratively querying the model with increasingly suitable context information in the prompt. The approach exploits the observation that predictions by LLMs often resemble the desired code, but they fail to correctly refer to already existing APIs. De-Hallucinator automatically identifies project-specific API references related to the model's initial predictions and adds these references into the prompt. Unlike retrieval-augmented generation (RAG), our approach uses the initial prediction(s) by the model to iteratively retrieve increasingly suitable API references. Our evaluation applies the approach to two tasks: predicting API usages in Python and generating tests in JavaScript. We show that De-Hallucinator consistently improves the generated code across five LLMs. In particular, the approach improves the edit distance by 23.3-50.6% and the recall of correctly predicted API usages by 23.9-61.0% for code completion, and improves the number of fixed tests that initially failed because of hallucinations by 63.2%, resulting in a 15.5% increase in statement coverage for test generation.
Abstract（参考訳）: 公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおいて、新たな最先端技術を確立した。しかし、これらのモデルは、主に特定のプロジェクトに存在するコードに気づいておらず、モデルが既存のAPIをうまく利用しない。代わりに、LLMは、しばしば既存のAPIを発明したり、"幻滅"したり、既存のコードの変種を生成したりする。本稿では、適切なAPI参照を検索し、プロンプト内でより適切なコンテキスト情報でモデルを反復的にクエリすることで、LCMの予測を基礎とするDe-Hallucinatorを提案する。このアプローチでは、LLMによる予測が望ましいコードによく似ているが、既存のAPIを正しく参照することができない、という観察を活用する。 De-Hallucinatorは、モデルの初期予測に関連するプロジェクト固有のAPI参照を自動的に識別し、これらの参照をプロンプトに追加する。検索拡張生成(RAG)とは異なり,本手法ではモデルによる初期予測を用いて,より適切なAPI参照を反復的に取得する。評価では,PythonでのAPI使用率の予測とJavaScriptによるテスト生成という,2つのタスクにアプローチを適用した。 De-Hallucinator は 5 つの LLM にまたがって生成したコードを改善する。特に、この手法は編集距離を23.3～50.6%改善し、コード補完のAPI使用率を23.9～61.0%リコールし、幻覚によって最初に失敗した固定テストの数を63.2%改善し、テスト生成のステートメントカバレッジが15.5%増加した。

関連論文リスト

LLM as a Neural Architect: Controlled Generation of Image Captioning Models Under Strict API Contracts [48.83701310501069]
LLM誘導型ニューラルネットワーク探索パイプラインであるNN-Captionを提案する。 LEMURの分類バックボーンからCNNエンコーダを構成することで、実行可能な画像キャプチャモデルを生成する。この作業では、プロンプトベースのコード生成と自動評価を統合するパイプラインを提示する。
論文参考訳（メタデータ） (2025-12-07T10:47:28Z)
Lightweight Model Editing for LLMs to Correct Deprecated API Recommendations [15.586818028794942]
事前訓練された大規模言語モデル(LLM)は、コード補完タスクにおいて強力なパフォーマンスを示している。 LLMは、将来のサードパーティライブラリではサポートされない非推奨のAPIを頻繁に生成する。本稿では,AdaLoRA-Lを提案する。AdaLoRA-Lは"共通APIレイヤ"(すべてのAPIで高い重要性を持ち,一般的な知識を保存し,編集から除外されたレイヤ)を定義し,編集を"特定APIレイヤ"に限定する。実験の結果、AdaLoRA-Lは他の評価指標と同等の性能を維持しながら、比例性を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-11-26T03:36:34Z)
Consistency Is the Key: Detecting Hallucinations in LLM Generated Text By Checking Inconsistencies About Key Facts [21.081815261690444]
大規模言語モデル(LLM)は、しばしば幻覚を生じさせ、現実の知識に根ざしていない事実的誤りのテキストを生成する。これは、医療、金融、顧客サポートといった分野に深刻なリスクをもたらす。外部知識ベースを活用できない効率的な検出手法であるCONFACTCHECKを紹介する。
論文参考訳（メタデータ） (2025-11-15T14:33:02Z)
Identifying and Mitigating API Misuse in Large Language Models [26.4403427473915]
大規模言語モデル(LLM)が生成するコードのAPI誤用は、ソフトウェア開発において深刻な課題となっている。本稿では LLM 生成コードにおける API の誤用パターンについて,Python および Java 間でのメソッド選択とパラメータ使用法の両方を解析し,総合的研究を行った。上記の分類に基づくAPI誤用に対する新しいLCMベースの自動プログラム修復手法であるDr.Fixを提案する。
論文参考訳（メタデータ） (2025-03-28T18:43:12Z)
When LLMs Meet API Documentation: Can Retrieval Augmentation Aid Code Generation Just as It Helps Developers? [10.204379646375182]
Retrieval-augmented Generation (RAG) は、学習前の知識を超えて、大規模言語モデルの能力(LLM)を拡大する能力を示している。検索と生成のための新たな知識として,あまり一般的でないAPIライブラリのドキュメンテーションを使用することの有効性に影響を与える要因について検討する。
論文参考訳（メタデータ） (2025-03-19T14:08:47Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
How and Why LLMs Use Deprecated APIs in Code Completion? An Empirical Study [13.633501449498402]
大規模言語モデル(LLM)では、ライブラリの迅速かつ継続的な進化のために、コード補完は、正しく最新のアプリケーションプログラミングインタフェース(API)を使用するのに苦労する可能性がある。この研究には、7つの高度なLLM、人気のあるPythonライブラリの145のAPIマッピング、28125の補完プロンプトが含まれていた。我々は,textscReplaceAPI と textscInsertPrompt の2つの軽量固定手法を提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:10Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文参考訳（メタデータ） (2024-04-30T23:56:38Z)
Citation-Enhanced Generation for LLM-based Chatbots [11.973280288131225]
大規模言語モデル(LLM)は多様なシナリオにまたがる強力な汎用知性を示す。幻覚コンテンツは反応で生成され、適用性が著しく制限される。提案手法は,検索議論と組み合わせた,ポストホックなCitation-Enhanced Generation手法である。
論文参考訳（メタデータ） (2024-02-25T11:24:41Z)
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。提案手法は,好ましくないデータを生成するための2段階のアプローチである。広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-02-18T00:56:16Z)
(Why) Is My Prompt Getting Worse? Rethinking Regression Testing for Evolving LLM APIs [8.403074015356594]
大規模言語モデル(LLM)はますますソフトウェアアプリケーションに統合されている。 LLMはサイレントに更新され、非推奨にされる。これはパフォーマンスの低下を引き起こし、迅速な設計選択に影響を与える可能性がある。
論文参考訳（メタデータ） (2023-11-18T17:11:12Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)
On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文参考訳（メタデータ） (2022-04-05T20:33:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。