論文の概要: Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering
- arxiv url: http://arxiv.org/abs/2506.11021v1
- Date: Fri, 16 May 2025 18:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.480123
- Title: Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering
- Title(参考訳): 関数クラスタリングによるLLM符号生成における幻覚誘発誤差の除去
- Authors: Chaitanya Ravuri, Saman Amarasinghe,
- Abstract要約: 機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern code-generation LLMs can already solve a large fraction of programming problems, yet they still hallucinate subtle bugs that make their outputs unsafe for autonomous deployment. We present functional clustering, a black-box wrapper that eliminates nearly all hallucination-induced errors while providing a tunable confidence score. The wrapper samples many candidate programs, executes each on a self-generated test suite, and clusters candidates whose I/O behavior is identical; the empirical mass of the largest cluster serves as an exact confidence estimate. A single scalar threshold on this estimate lets users trade coverage for reliability with exponential guarantees. On LiveCodeBench our verifier preserves baseline pass@1 on solvable tasks yet slashes the error rate of returned answers from ~65% to 2%, and drives it to 0% at a conservative threshold while still answering 15.6% of prompts. Manual audits show that the few residual mistakes stem from prompt misinterpretation, not random generation noise, narrowing future work to specification clarity. Because the method requires only sampling and sandbox execution, it applies unchanged to closed-source APIs and future models, offering a practical path toward dependable, autonomous code generation. Our code is available on Github (https://github.com/20ChaituR/functional-clustering).
- Abstract(参考訳): 現代のコード生成 LLM は、すでにかなりの数のプログラミング問題を解決することができるが、それでも、アウトプットが自律的なデプロイに対して安全でないような微妙なバグを幻覚させる。
機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。
ラッパーは、多くの候補プログラムをサンプリングし、それぞれを自己生成テストスイートで実行し、I/Oの振る舞いが同一であるクラスタ候補をクラスタ化する。
この推定のスカラー閾値は、指数的な保証で信頼性のためのカバレッジを取引できる。
LiveCodeBenchでは、検証者が解決可能なタスクのベースラインパス@1を保存しますが、返却された回答のエラー率を約65%から2%に削減します。
手動による監査では、いくつかの残余の誤りは、素早い誤解釈によるもので、ランダムな生成ノイズではないことが示され、将来の作業は仕様の明確さに絞られる。
このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
私たちのコードはGithub(https://github.com/20ChaituR/functional-clustering)で公開しています。
関連論文リスト
- Detecting and Correcting Hallucinations in LLM-Generated Code via Deterministic AST Analysis [11.687400527666476]
本稿では,決定論的静的解析フレームワークがテキストと自動修正KCHを確実に検出できるかどうかを検討する。
生成されたコードを抽象構文木(AST)に解析し,動的に生成された知識ベース(KB)に対して検証する後処理フレームワークを提案する。
この非実行アプローチでは、決定論的ルールを使用して、APIと識別子レベルの競合を見つけて修正する。
論文 参考訳(メタデータ) (2026-01-27T02:16:37Z) - Probabilistic Guarantees for Reducing Contextual Hallucinations in LLMs [0.0]
大規模言語モデル(LLM)は、しばしば文脈幻覚を発生させ、生成されたコンテンツはプロンプトで明示された情報に矛盾したり無視する。
本稿では,この設定における幻覚の低減のための確率的保証を明示的に提供する,モデルに依存しないフレームワークを提案する。
判定されたパイプラインが失敗する確率は、審査員の真偽陽性確率によって決定される速度で低下することを示す。
論文 参考訳(メタデータ) (2026-01-02T10:52:33Z) - Localized Calibrated Uncertainty in Code Language Models [1.2733370160280995]
世代がユーザの意図と不一致する可能性のある場所をローカライズするための技術を提供します。
我々は,コードのどの部分が最小限のパッチで編集されるかを示すために,様々なテクニックが適切に校正された確率を割り振ることができるかを測定する。
最小限のスーパーバイザーモデルを用いたプローブは低いキャリブレーション誤差を達成でき、ブリアスキルスコアは数桁のモデルで生成されたコードに対して0.2の編集線を推定する。
論文 参考訳(メタデータ) (2025-12-31T02:00:17Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Counting Without Running: Evaluating LLMs' Reasoning About Code Complexity [2.7389338551082605]
性能ボトルネックを予測するため,LLM(Large Language Models)のベンチマークを開発した。
FLOPBenchは577カーネルの単精度と倍精度のFLOP数を予測する。
われわれはFLOPBenchをLLMツールの開発に焦点をあてたテストベッドとして位置づけた。
論文 参考訳(メタデータ) (2025-12-04T01:03:20Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs [5.10123605644148]
自動脆弱性修復(AVR: Automated Vulnerability repair)は、プログラム修復の急激な分岐である。
近年の研究では、大きな言語モデル(LLM)が従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-28T16:39:16Z) - LLM-Based Repair of Static Nullability Errors [14.857404348789201]
我々は、nullability Checkerからnullabilityエラーを解決するための構造化ワークフローにLLMを統合するシステムであるNullRepairを提案する。
NullRepairは、最先端のアノテーション推論技術を適用した後に残るエラーの平均72%を解決している。
NullRepair は、ナリープロップされた LLM とは異なり、プログラムのセマンティクスもほとんど保存している。
論文 参考訳(メタデータ) (2025-07-28T09:55:04Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - SURE: A Visualized Failure Indexing Approach using Program Memory
Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。
まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。
2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2023-10-19T02:04:35Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。