論文の概要: Hallucination in LLM-Based Code Generation: An Automotive Case Study
- arxiv url: http://arxiv.org/abs/2508.11257v1
- Date: Fri, 15 Aug 2025 06:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.767444
- Title: Hallucination in LLM-Based Code Generation: An Automotive Case Study
- Title(参考訳): LLMコード生成における幻覚--自動車ケーススタディ
- Authors: Marc Pavel, Nenad Petrovic, Lukasz Mazur, Vahid Zolfaghari, Fengjunjie Pan, Alois Knoll,
- Abstract要約: 本稿では,自動車領域に着目したコード生成の文脈における幻覚現象について検討する。
GPT-4.1、Codex、GPT-4oでは、構文違反、不正な参照エラー、API知識の衝突の頻度が高い。
- 参考スコア(独自算出の注目度): 3.2821049498759094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown significant potential in automating code generation tasks offering new opportunities across software engineering domains. However, their practical application remains limited due to hallucinations - outputs that appear plausible but are factually incorrect, unverifiable or nonsensical. This paper investigates hallucination phenomena in the context of code generation with a specific focus on the automotive domain. A case study is presented that evaluates multiple code LLMs for three different prompting complexities ranging from a minimal one-liner prompt to a prompt with Covesa Vehicle Signal Specifications (VSS) as additional context and finally to a prompt with an additional code skeleton. The evaluation reveals a high frequency of syntax violations, invalid reference errors and API knowledge conflicts in state-of-the-art models GPT-4.1, Codex and GPT-4o. Among the evaluated models, only GPT-4.1 and GPT-4o were able to produce a correct solution when given the most context-rich prompt. Simpler prompting strategies failed to yield a working result, even after multiple refinement iterations. These findings highlight the need for effective mitigation techniques to ensure the safe and reliable use of LLM generated code, especially in safety-critical domains such as automotive software systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学領域にまたがる新たな機会を提供するコード生成タスクを自動化する大きな可能性を示している。
しかし、その実践的応用は幻覚によって制限され続けている。
本稿では,自動車領域に着目したコード生成の文脈における幻覚現象について検討する。
ケーススタディでは、最小限のワンライナープロンプトから、Covesa Vehicle Signal Specifications (VSS) によるプロンプトまで、さらにコンテキストとして、最後にコードスケルトンを追加してプロンプトまで、3つの異なるプロンプト複雑な3つのコード LLM を評価する。
この評価は、最先端モデルのGPT-4.1、Codex、GPT-4oにおける構文違反、不正な参照エラー、API知識の衝突の頻度を明らかにしている。
評価されたモデルの中では、GPT-4.1 と GPT-4o のみが、最も文脈に富んだプロンプトを与えられたときに正しい解を生成することができた。
より単純なプロンプト戦略は、複数の改善イテレーションの後にも、動作結果を得られなかった。
これらの知見は、特に自動車ソフトウェアシステムのような安全クリティカルな領域において、LLM生成コードの安全で信頼性の高い使用を確実にするための効果的な緩和技術の必要性を強調している。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Large Language Models in Code Co-generation for Safe Autonomous Vehicles [2.9412498294532856]
大規模言語モデル(LLM)は、ソフトウェアシステムの一部を実装するプロセスを加速するために用いられる。
LLMは、その性質から、安全関連システムの開発に関する、十分に文書化された一連のリスクを伴っている。
4つの安全関連プログラミングタスクにおける6つの最先端LCMの性能を比較した。
我々はこれらのLSMが生み出す最も頻繁な欠陥を質的に分析し、人間のレビュアーを支援するための失敗モードカタログを作成します。
論文 参考訳(メタデータ) (2025-05-26T08:18:30Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Towards Specification-Driven LLM-Based Generation of Embedded Automotive Software [0.4369550829556578]
本稿では,LLMによるコード生成と形式検証を組み合わせ,重要な組込みソフトウェアを作成する方法について検討する。
目標は、仕様のみから産業品質のコードを自動的に生成することだ。
論文 参考訳(メタデータ) (2024-11-20T12:38:17Z) - A Deep Dive Into Large Language Model Code Generation Mistakes: What and Why? [9.246899995643918]
大規模な言語モデルは、仕様から逸脱する欠陥コードを生成することができる。
広範囲な手動分析により, ノンシンタクティックな誤りの7つのカテゴリーが同定された。
評価の結果,LPMの誤りの原因を特定すると,ReActプロンプト技術を用いたGPT-4が最大0.65のF1スコアを達成できることがわかった。
論文 参考訳(メタデータ) (2024-11-03T02:47:03Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。
本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。
我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文 参考訳(メタデータ) (2024-06-11T00:40:17Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。