論文の概要: Code Hallucination
- arxiv url: http://arxiv.org/abs/2407.04831v1
- Date: Fri, 5 Jul 2024 19:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 22:26:54.670022
- Title: Code Hallucination
- Title(参考訳): 法典幻覚
- Authors: Mirza Masfiqur Rahman, Ashish Kundu,
- Abstract要約: コード幻覚にはいくつかの種類がある。
大規模な言語モデルを用いて手動でこのような幻覚コードを生成する。
任意のコード幻覚を生成する効率的な方法を示すために,HalTriggerというテクニックも提案する。
- 参考スコア(独自算出の注目度): 0.07366405857677226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models such as large language models are extensively used as code copilots and for whole program generation. However, the programs they generate often have questionable correctness, authenticity and reliability in terms of integration as they might not follow the user requirements, provide incorrect and/or nonsensical outputs, or even contain semantic/syntactic errors - overall known as LLM hallucination. In this work, we present several types of code hallucination. We have generated such hallucinated code manually using large language models. We also present a technique - HallTrigger, in order to demonstrate efficient ways of generating arbitrary code hallucination. Our method leverages 3 different dynamic attributes of LLMs to craft prompts that can successfully trigger hallucinations from models without the need to access model architecture or parameters. Results from popular blackbox models suggest that HallTrigger is indeed effective and the pervasive LLM hallucination have sheer impact on software development.
- Abstract(参考訳): 大規模言語モデルのような生成モデルは、コードコパイロやプログラム全体の生成に広く利用されている。
しかしながら、それらが生成するプログラムは、ユーザ要求に従わなかったり、誤りや非感覚的なアウトプットを提供したり、あるいは意味的/症状的エラーを含むような、総合的にLLM幻覚(LLM Hallucination)として知られるような、疑わしい正当性、真正性、信頼性を持つことが多い。
本研究では,いくつかの種類のコード幻覚を提示する。
大規模な言語モデルを用いて手動でこのような幻覚コードを生成する。
任意のコード幻覚を生成する効率的な方法を示すために,HalTriggerというテクニックも提案する。
提案手法は3種類のLCMの動的特性を利用して,モデルアーキテクチャやパラメータにアクセスすることなく,モデルから幻覚を誘発するプロンプトを作成する。
一般的なブラックボックスモデルによる結果から、HalTriggerは確かに有効であり、広範にわたるLLM幻覚がソフトウェア開発に大きな影響を与えていることが示唆されている。
関連論文リスト
- MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。
Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。
我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文 参考訳(メタデータ) (2024-10-13T20:41:47Z) - CodeMirage: Hallucinations in Code Generated by Large Language Models [6.063525456640463]
大規模言語モデル(LLM)は、プログラム生成とコードの自動化において有望な可能性を示している。
LLMは幻覚を生成する傾向があり、すなわち、可塑性に聞こえるが誤りであるテキストを生成する。
コード幻覚のための最初のベンチマークであるCodeMirageデータセットを提案する。
論文 参考訳(メタデータ) (2024-08-14T22:53:07Z) - Mitigating Large Language Model Hallucination with Faithful Finetuning [46.33663932554782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
彼らは「幻覚」として知られる、流動的で不合理な反応を生み出す傾向にある
論文 参考訳(メタデータ) (2024-06-17T07:16:07Z) - CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification [73.66920648926161]
本稿では,コード幻覚の概念を導入し,実行検証に基づくコード幻覚の分類法を提案する。
本稿では,コード幻覚の検出と定量化を目的とした,CodeHaluと呼ばれる動的検出アルゴリズムを提案する。
また、699のタスクから8,883のサンプルを含むCodeHaluEvalベンチマークを導入し、コードの幻覚を体系的に定量的に評価する。
論文 参考訳(メタデータ) (2024-04-30T23:56:38Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Exploring and Evaluating Hallucinations in LLM-Powered Code Generation [14.438161741833687]
LLM(Large Language Models)は、ユーザの意図から逸脱した出力を生成し、内部的不整合を示すか、事実的知識と不整合を示す。
既存の研究は主に、自然言語生成の分野における幻覚の投資に重点を置いている。
我々は,LLM生成コードのテーマ解析を行い,その内に存在する幻覚を要約し,分類する。
幻覚認識におけるLLMの性能評価のためのベンチマークであるHaluCodeを提案する。
論文 参考訳(メタデータ) (2024-04-01T07:31:45Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。