論文の概要: CodeMirage: Hallucinations in Code Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2408.08333v1
- Date: Wed, 14 Aug 2024 22:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 17:39:31.728904
- Title: CodeMirage: Hallucinations in Code Generated by Large Language Models
- Title(参考訳): CodeMirage: 大規模言語モデルによって生成されたコードの幻覚
- Authors: Vibhor Agarwal, Yulong Pei, Salwa Alamir, Xiaomo Liu,
- Abstract要約: 大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。
LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。
コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
- 参考スコア(独自算出の注目度): 6.063525456640463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown promising potentials in program generation and no-code automation. However, LLMs are prone to generate hallucinations, i.e., they generate text which sounds plausible but is incorrect. Although there has been a recent surge in research on LLM hallucinations for text generation, similar hallucination phenomenon can happen in code generation. Sometimes the generated code can have syntactical or logical errors as well as more advanced issues like security vulnerabilities, memory leaks, etc. Given the wide adaptation of LLMs to enhance efficiency in code generation and development in general, it becomes imperative to investigate hallucinations in code generation. To the best of our knowledge, this is the first attempt at studying hallucinations in the code generated by LLMs. We start by introducing the code hallucination definition and a comprehensive taxonomy of code hallucination types. We propose the first benchmark CodeMirage dataset for code hallucinations. The benchmark contains 1,137 GPT-3.5 generated hallucinated code snippets for Python programming problems from two base datasets - HumanEval and MBPP. We then propose the methodology for code hallucination detection and experiment with open source LLMs such as CodeLLaMA as well as OpenAI's GPT-3.5 and GPT-4 models using one-shot prompt. We find that GPT-4 performs the best on HumanEval dataset and gives comparable results to the fine-tuned CodeBERT baseline on MBPP dataset. Towards the end, we discuss various mitigation strategies for code hallucinations and conclude our work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。
しかし、LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。
近年、テキスト生成のためのLLM幻覚の研究が急増しているが、コード生成において同様の幻覚現象が発生する可能性がある。
時に生成されたコードは、構文的または論理的エラーや、セキュリティの脆弱性やメモリリークといったより高度な問題を抱えることがある。
コード生成および開発における効率性を高めるため,LLMの広範な適応を考えると,コード生成における幻覚を調査することが不可欠となる。
我々の知る限りでは、LLMが生成したコードの幻覚を研究する最初の試みである。
まず、コード幻覚の定義とコード幻覚の包括分類の導入から始めます。
コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
ベンチマークには、HumanEvalとMBPPという2つのベースデータセットから、Pythonプログラミング問題に対する1,137 GPT-3.5生成の幻覚コードスニペットが含まれている。
次に,CodeLLaMAやOpenAIのGPT-3.5,GPT-4といったオープンソースのLCMをワンショットプロンプトで検出し,実験する手法を提案する。
GPT-4はHumanEvalデータセット上で最高の性能を示し、MBPPデータセット上の細調整されたCodeBERTベースラインに匹敵する結果を与える。
最後に,コード幻覚の緩和戦略について論じ,研究をまとめる。
関連論文リスト
- Code Hallucination [0.07366405857677226]
コード幻覚にはいくつかの種類がある。
大規模な言語モデルを用いて手動でこのような幻覚コードを生成する。
任意のコード幻覚を生成する効率的な方法を示すために,HalTriggerというテクニックも提案する。
論文 参考訳(メタデータ) (2024-07-05T19:37:37Z) - CodeHalu: Code Hallucinations in LLMs Driven by Execution-based Verification [27.67210769524277]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
コード幻覚を、マッピング、命名、リソース、論理幻覚の4つの主なタイプに分類する。
コード幻覚を体系的に定量的に評価するために、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを構築した。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples [17.012156573134067]
ランダムなトークンからなる非意味なプロンプトは、幻覚に反応するために大きな言語モデルを引き出すことができることを示す。
我々は, 自動幻覚トリガー法を, 対向的にテキスト幻覚攻撃として定式化する。
私たちのコードはGitHubでリリースされています。
論文 参考訳(メタデータ) (2023-10-02T17:01:56Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。