論文の概要: Task Abstention for Large Language Models in Code Generation
- arxiv url: http://arxiv.org/abs/2605.17029v1
- Date: Sat, 16 May 2026 14:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.499756
- Title: Task Abstention for Large Language Models in Code Generation
- Title(参考訳): コード生成における大規模言語モデルのタスク回避
- Authors: Yanke Zhou, Yuhao Tan, Senrong Xu, Zenan Li, Yuan Yao, Taolue Chen, Xiaoxing Ma,
- Abstract要約: 大規模言語モデル(LLM)は、自動コード生成に革命をもたらした。
「一つはいわゆる幻覚である。」
本研究は,特定のコード生成タスクの実行を停止すべきか否かを判定し,幻覚を避けるためのタスク停止問題について検討する。
- 参考スコア(独自算出の注目度): 16.35286288670945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized automated code generation. One serious concern, however, is the so-called ``hallucination'', i.e., LLMs may generate seemingly plausible but functionally incorrect code. In this paper, we study the task abstention problem, i.e., determining whether a given LLM should abstain from performing a specific code generation task to avoid likely hallucination. Our approach features a calibrated abstention rule, grounded in the principles of multiple hypothesis testing. The rule assesses generation consistency through code execution outcomes, allowing it to handle syntactic diversity of semantically equivalent code without reliance on oracle test cases or external databases. We prove that our approach provides a rigorous, distribution-free theoretical guarantee on its abstention decisions. We evaluate our method on benchmark datasets using several open-source code LLMs. Results show that our method allows generative models to more accurately and efficiently identify and abstain from tasks that induce hallucination compared to existing techniques, providing a reliable mechanism for safer and more robust code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自動コード生成に革命をもたらした。
しかし、深刻な懸念の1つはいわゆる 'hallucination' であり、すなわち LLM は可塑性だが機能的に不正確なコードを生成する可能性がある。
本稿では,あるLLMが特定のコード生成タスクの実行を中断するかどうかを判定し,ハロゲン化の危険性を回避することを目的としたタスク停止問題について検討する。
提案手法は, 多重仮説テストの原理を基礎として, キャリブレーションされた禁制則を特徴とする。
このルールは、コード実行結果を通じて生成一貫性を評価し、オラクルのテストケースや外部データベースに依存することなく、意味論的に等価なコードの構文的多様性を処理できる。
我々は,本手法が,その棄却決定に対して厳密かつ分布自由な理論的保証を提供することを証明した。
提案手法は,複数のオープンソースコード LLM を用いてベンチマークデータセット上で評価する。
その結果,提案手法は,既存の手法と比較して,幻覚を誘発するタスクを,より正確かつ効率的に識別し,排除することを可能にし,より安全で堅牢なコード生成のための信頼性の高いメカニズムを提供する。
関連論文リスト
- Uncertainty Quantification for LLM-based Code Generation [18.240828221520257]
コード生成のためのリスク制御予測を構築するために,複数の仮説テストを利用するRisCoSetを提案する。
同程度のリスクで,コード削除を最大24.5%削減することができる。
論文 参考訳(メタデータ) (2026-05-12T14:40:29Z) - Zero-Shot Detection of LLM-Generated Code via Approximated Task Conditioning [8.571111167616165]
LLM(Large Language Model)が生成するコードは、セキュリティ、知的財産権、学術的完全性に影響を及ぼす。
ゼロショットLLM生成符号検出における条件付き確率分布の役割について検討する。
与えられたコードスニペットを生成するのに使用される元のタスクを近似する新しいゼロショット検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:23:37Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Ensuring Functional Correctness of Large Code Models with Selective Generation [13.517414451760635]
コード生成モデルの幻覚は、より高い安全性基準を必要とするシステムへの適用性を妨げます。
生成した単体テストによって評価された機能的正当性に基づいて,不確実な世代から退避する固有コード生成器を提案する。
本手法の有効性を,コード幻覚の制御性と適切な選択効率とともに示す。
論文 参考訳(メタデータ) (2025-05-19T06:29:16Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - CodeSift: An LLM-Based Reference-Less Framework for Automatic Code Validation [3.22798929957223]
大規模言語モデル(LLM)はコード生成を大いに促進してきたが、生成されたコードの機能的正確性を保証することは依然として課題である。
従来のバリデーション手法は、多くの場合、大量のコードに対して時間がかかり、エラーが発生し、実用的ではない。
コード検証のファーストラインフィルタとしてLLMを活用する新しいフレームワークであるCodeSiftを紹介します。
論文 参考訳(メタデータ) (2024-08-28T08:32:21Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。