論文の概要: Reducing Hallucinations in LLM-Generated Code via Semantic Triangulation
- arxiv url: http://arxiv.org/abs/2511.12288v2
- Date: Sat, 22 Nov 2025 03:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 13:28:09.592989
- Title: Reducing Hallucinations in LLM-Generated Code via Semantic Triangulation
- Title(参考訳): 意味的三角測量によるLLM生成コードの幻覚の低減
- Authors: Yihan Dai, Sijie Liang, Haotian Xu, Peichu Xie, Sergey Mechtaev,
- Abstract要約: 我々はセマンティックトライアングルを導入し、解間の正確な検証可能なマッピングを保持する方法でプログラミング問題を変換する。
LiveCodeBenchとCodeEloのベンチマークでは、セマンティックトライアングルによって生成されたコードの信頼性が21%向上している。
また、複数の有効だが等価でない解を持つタスクに対して、真のコンセンサスを一貫して形成する唯一のアプローチでもある。
- 参考スコア(独自算出の注目度): 2.8646222242803643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When generating code from natural language prompts, an LLM samples programs from a probability distribution, many of which might be incorrect. Sample consensus techniques - such as majority voting or validation against generated tests or specifications - aim to identify a correct program in the sample or abstain if none is valid. However, existing methods often fail to select a correct solution when its sampling probability is low, or when the problem permits multiple valid but non-equivalent solutions. Additionally, they often fail to abstain when no correct solution is present in the sample. To overcome these limitations, we introduce semantic triangulation, which transforms a programming problem in a way that non-trivially alters its semantics while preserving an exact, verifiable mapping between solutions before and after transformation. We theoretically establish that verifying consistency across such problem transformations increases confidence that generated programs reflect accurate generalization rather than spurious statistical correlations, enabling more reliable sample consensus and abstention. On the LiveCodeBench and CodeElo benchmarks, using GPT-4o and DeepSeek-V3 models, semantic triangulation increases reliability of generated code by 21% compared to the method that selects only high-confidence solutions with the probability threshold 0.5, while being able to pinpoint correct solutions at sampling probabilities as low as 0.14. Apart from that, it is also the only approach to consistently form true consensus on tasks with multiple valid but non-equivalent solutions.
- Abstract(参考訳): 自然言語のプロンプトからコードを生成する場合、LLMは確率分布からプログラムをサンプリングする。
過半数の投票や、生成されたテストや仕様に対する検証といった、サンプルのコンセンサステクニックは、サンプル内の正しいプログラムを特定したり、誰も有効でないかどうかを保証したりすることを目的としています。
しかし、既存の手法はサンプリング確率が低い場合や、問題が複数の有効だが等価でない解を許す場合、正しい解を選択するのに失敗することが多い。
さらに、サンプルに正しい解が存在しない場合、しばしば棄権する。
これらの制限を克服するために、意味的三角法を導入し、これは、変換前後のソリューション間の正確な検証可能なマッピングを維持しながら、意味論を非自明に変更する方法で、プログラミング問題を変換する。
このような問題変換における整合性検証は、統計的相関よりも正確な一般化を反映する自信を高め、より信頼性の高いサンプルのコンセンサスと棄却を可能にすることを理論的に確立する。
LiveCodeBenchとCodeEloのベンチマークでは、GPT-4oとDeepSeek-V3モデルを使用して、確率閾値0.5の高信頼解のみを選択する方法と比較して、セマンティックトライアングリゲーションは生成コードの信頼性を21%向上させ、サンプリング確率0.14で正しい解を特定できる。
それとは別に、複数の有効だが等価でないソリューションを持つタスクに対して、真のコンセンサスを一貫して形成する唯一のアプローチでもある。
関連論文リスト
- Constrained Adaptive Rejection Sampling [27.579645342312674]
言語モデル(LM)は、生成した出力が厳密な意味的制約や構文的制約を満たす必要があるアプリケーションでますます使われている。
既存の制約付き生成へのアプローチは、スペクトルに沿って低下する: 欲求的制約付き復号法は、復号時の有効性を強制するが、LMの分布を歪ませる。
本稿では、分布歪みを伴わないRSの試料効率を厳密に改善するアプローチである、適応型サンプリング(CARS)を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:17:26Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。
本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文 参考訳(メタデータ) (2025-02-26T03:22:44Z) - Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers [13.823743787003787]
近年の研究では、推論スケーリングにより、より弱い言語モデルがより強力なモデルの精度に適合または超えることを期待している。
より弱いモデルの推論スケーリングの量は、十分に強いモデルの単一サンプル精度に匹敵することができないことを示す。
また、精度以上の偽陽性には、コーディングスタイルの慣行への順守の欠如など、他の望ましくない性質があることも示している。
論文 参考訳(メタデータ) (2024-11-26T15:13:06Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Certifying Neural Network Robustness to Random Input Noise from Samples [14.191310794366075]
入力の不確実性の存在下でのニューラルネットワークの堅牢性を証明する方法は、安全クリティカルな設定において不可欠である。
本稿では,入力雑音が任意の確率分布に従う場合に,誤分類の確率を上限とする新しいロバスト性証明法を提案する。
論文 参考訳(メタデータ) (2020-10-15T05:27:21Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。