論文の概要: Inferring Code Correctness from Specification
- arxiv url: http://arxiv.org/abs/2605.29822v1
- Date: Thu, 28 May 2026 12:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.219463
- Title: Inferring Code Correctness from Specification
- Title(参考訳): 仕様からコードの正しさを推測する
- Authors: Tambon Florian, Papadakis Mike,
- Abstract要約: 大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、大規模に自動コード生成を可能にしている。
提案するTRAILS(Targeted Reasoning Agreement via Inputs and Specifications)は,コンクリート(インプット,アウトプット)ペアによるLCM推論を基礎とする手法である。
TRAILSをLiveCodeBenchとCoCoClaNeLの2つのデータセット(Qwen3Coder-30B、Devstral-Small-24B、Olmo3.1-Instruct)で評価し、HoarePromptとZero-Shot Chain-of-Thoughtベースラインと比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have become integral to modern software development, enabling automated code generation at scale. However, validating the correctness of LLM-generated code remains a critical and largely unsolved challenge. Existing approaches either rely on dynamic consensus across multiple code candidates - making them costly and difficult to scale - or on static reasoning that is susceptible to dynamic bugs and order bias. In this paper, we propose TRAILS~ (Targeted Reasoning Agreement via Inputs and Specifications), an approach that grounds LLM reasoning with concrete (input, output) pairs. TRAILS~ first generates diverse test inputs via category partitioning based on the specification, then executes them against the candidate code and prompts LLMs to assess whether the resulting input-output pairs conform to the specification - without ever reasoning over the code itself. Scores are aggregated across inputs, to determines whether the program is likely correct. We evaluate TRAILS~ on two datasets, LiveCodeBench and CoCoClaNeL, across three LLMs (Qwen3Coder-30B, Devstral-Small-24B, and Olmo3.1-Instruct), comparing against HoarePrompt and a Zero-Shot Chain-of-Thought baseline. TRAILS~ improves Matthew Correlation Coefficient by up to 39\% relative to Zero-Shot COT and consistently outperforms HoarePrompt. Beyond accuracy, TRAILS~ demonstrates greater stability across seeded runs, reducing sensitivity to LLM non-determinism, and assigns correct labels to a larger set of unique code samples than competing approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものとなり、大規模に自動コード生成を可能にしている。
しかし、LLM生成コードの正確性を検証することは、批判的であり、ほとんど未解決の課題である。
既存のアプローチでは、複数のコード候補間の動的コンセンサス – コストがかかり、スケールが難しい – に依存するか、動的バグや順序バイアスの影響を受けやすい静的な推論に依存しています。
本稿では,具体的(インプット,アウトプット)なペアによるLLM推論を基礎とするTRAILS~を提案する。
TRAILS~はまず仕様に基づいてカテゴリパーティショニングを通じて多様なテストインプットを生成し、それから候補コードに対してそれらを実行し、結果のインプットとアウトプットのペアが仕様に準拠しているかどうかをLCMに判断するよう促す。
スコアは入力間で集約され、プログラムが正しいかどうかを決定する。
TRAILS~をLiveCodeBenchとCoCoClaNeLの3つのLLM(Qwen3Coder-30B、Devstral-Small-24B、Olmo3.1-Instruct)で評価し、HoarePromptとZero-Shot Chain-of-Thoughtベースラインと比較した。
TRAILS~は、Zero-Shot COT と比較して Matthew 相関係数を 39 % 改善し、一貫して HoarePrompt を上回っている。
TRAILS~は、シード実行時の安定性を向上し、LCM非決定性に対する感度を低下させ、競合するアプローチよりも大きなユニークなコードサンプルに正しいラベルを割り当てる。
関連論文リスト
- DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode [56.14374797825548]
よりエラー耐性の高い擬似コードに基づいて予測を行うLLMベースの擬似コード実行を提案する。
両手法を機能的多数決で組み合わせた二重実行フレームワークであるDuETを提案する。
LiveCodeBenchでは、DuETは最先端のパフォーマンスを実現し、Pass@1を13.6ppで改善した。
論文 参考訳(メタデータ) (2026-04-13T14:18:58Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。
我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:40:45Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。
本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。