Fugu-MT 論文翻訳(概要): Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering

論文の概要: Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering

arxiv url: http://arxiv.org/abs/2506.11021v1
Date: Fri, 16 May 2025 18:19:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-22 23:32:14.480123
Title: Eliminating Hallucination-Induced Errors in LLM Code Generation with Functional Clustering
Title（参考訳）: 関数クラスタリングによるLLM符号生成における幻覚誘発誤差の除去
Authors: Chaitanya Ravuri, Saman Amarasinghe,
Abstract要約: 機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。我々の検証は、解決可能なタスクのベースラインパス@1を保存するが、返却された回答のエラー率を65%から2%に下げる。このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Modern code-generation LLMs can already solve a large fraction of programming problems, yet they still hallucinate subtle bugs that make their outputs unsafe for autonomous deployment. We present functional clustering, a black-box wrapper that eliminates nearly all hallucination-induced errors while providing a tunable confidence score. The wrapper samples many candidate programs, executes each on a self-generated test suite, and clusters candidates whose I/O behavior is identical; the empirical mass of the largest cluster serves as an exact confidence estimate. A single scalar threshold on this estimate lets users trade coverage for reliability with exponential guarantees. On LiveCodeBench our verifier preserves baseline pass@1 on solvable tasks yet slashes the error rate of returned answers from ~65% to 2%, and drives it to 0% at a conservative threshold while still answering 15.6% of prompts. Manual audits show that the few residual mistakes stem from prompt misinterpretation, not random generation noise, narrowing future work to specification clarity. Because the method requires only sampling and sandbox execution, it applies unchanged to closed-source APIs and future models, offering a practical path toward dependable, autonomous code generation. Our code is available on Github (https://github.com/20ChaituR/functional-clustering).
Abstract（参考訳）: 現代のコード生成 LLM は、すでにかなりの数のプログラミング問題を解決することができるが、それでも、アウトプットが自律的なデプロイに対して安全でないような微妙なバグを幻覚させる。機能的クラスタリング(Functional Clustering, ブラックボックスラッパー)は, 覚醒によるほとんどすべてのエラーを排除し, 調整可能な信頼スコアを提供する。ラッパーは、多くの候補プログラムをサンプリングし、それぞれを自己生成テストスイートで実行し、I/Oの振る舞いが同一であるクラスタ候補をクラスタ化する。この推定のスカラー閾値は、指数的な保証で信頼性のためのカバレッジを取引できる。 LiveCodeBenchでは、検証者が解決可能なタスクのベースラインパス@1を保存しますが、返却された回答のエラー率を約65%から2%に削減します。手動による監査では、いくつかの残余の誤りは、素早い誤解釈によるもので、ランダムな生成ノイズではないことが示され、将来の作業は仕様の明確さに絞られる。このメソッドはサンプリングとサンドボックスの実行のみを必要とするため、クローズドソースAPIや将来のモデルには適用されない。私たちのコードはGithub(https://github.com/20ChaituR/functional-clustering)で公開しています。

関連論文リスト

Repairing vulnerabilities without invisible hands. A differentiated replication study on LLMs [5.10123605644148]
自動脆弱性修復(AVR: Automated Vulnerability repair)は、プログラム修復の急激な分岐である。近年の研究では、大きな言語モデル(LLM)が従来の手法より優れていることが示されている。
論文参考訳（メタデータ） (2025-07-28T16:39:16Z)
LLM-Based Repair of Static Nullability Errors [14.857404348789201]
我々は、nullability Checkerからnullabilityエラーを解決するための構造化ワークフローにLLMを統合するシステムであるNullRepairを提案する。 NullRepairは、最先端のアノテーション推論技術を適用した後に残るエラーの平均72%を解決している。 NullRepair は、ナリープロップされた LLM とは異なり、プログラムのセマンティクスもほとんど保存している。
論文参考訳（メタデータ） (2025-07-28T09:55:04Z)
MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文参考訳（メタデータ） (2025-04-28T18:06:38Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 LLMはコード生成時にエラーの蓄積に影響を受けやすい。コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文参考訳（メタデータ） (2024-11-11T16:39:13Z)
$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文参考訳（メタデータ） (2024-09-09T02:07:41Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文参考訳（メタデータ） (2024-03-07T17:44:17Z)
SURE: A Visualized Failure Indexing Approach using Program Memory Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。 2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文参考訳（メタデータ） (2023-10-19T02:04:35Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。