論文の概要: SolidCoder: Bridging the Mental-Reality Gap in LLM Code Generation through Concrete Execution
- arxiv url: http://arxiv.org/abs/2604.19825v1
- Date: Mon, 20 Apr 2026 13:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.568244
- Title: SolidCoder: Bridging the Mental-Reality Gap in LLM Code Generation through Concrete Execution
- Title(参考訳): SolidCoder: コンクリートによるLLMコード生成におけるメンタルリティーギャップのブリッジ
- Authors: Woojin Lee, Jin-Xia Huang,
- Abstract要約: SolidCoderは仕様ギャップと検証ギャップに対処する。
GPT-4oでは、SolidCoderは最先端のpass@1パフォーマンスを達成する。
将来の研究を促進するために、コードとフレームワークをリリースします。
- 参考スコア(独自算出の注目度): 7.331620052238196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art code generation frameworks rely on mental simulation, where LLMs internally trace execution to verify correctness. We expose a fundamental limitation: the Mental-Reality Gap -- where models hallucinate execution traces and confidently validate buggy code. This gap manifests along two orthogonal dimensions: the Specification Gap (overlooking edge cases during planning) and the Verification Gap (hallucinating correct behavior for flawed code). We propose SolidCoder with a simple principle: don't imagine -- execute. The S.O.L.I.D. architecture addresses both dimensions by forcing edge-case awareness before algorithm design and replacing imagined traces with sandboxed execution using property-based oracles. With GPT-4o, SolidCoder achieves state-of-the-art pass@1 performance: 95.7% on HumanEval (+0.6%p), 77.0% on CodeContests (+4.3%p), and 26.7% on APPS (+3.4%p). Ablation reveals that edge-case awareness provides the largest individual gain, while execution grounding catches categorically different errors that specification improvements cannot address. These gains generalize to RL post-trained models, validating that bridging both gap dimensions is essential for robust code synthesis. We release our code and framework to facilitate future research.
- Abstract(参考訳): 最先端のコード生成フレームワークはメンタルシミュレーションに依存しており、LCMは内部で実行をトレースして正確性を検証する。
モデルが実行トレースを幻覚し、バグのあるコードを確実に検証する、メンタル・リティーギャップ(Mental-Reality Gap)。このギャップは、仕様ギャップ(計画中のエッジケースを見下ろす)と検証ギャップ(欠陥のあるコードの正しい振る舞いを幻覚する)という2つの直交の次元に沿って現れます。私たちは、単純な原則でSolidCoderを提案します。
S.O.L.I.D.アーキテクチャは、アルゴリズム設計の前にエッジケースの認識を強制し、プロパティベースのオラクルを使って想像上のトレースをサンドボックス化された実行に置き換えることで、両方の次元に対処する。
GPT-4oでSolidCoderは、HumanEval(+0.6%p)で95.7%、CodeContests(+4.3%p)で77.0%、APPS(+3.4%p)で26.7%の最先端パス@1パフォーマンスを達成した。
Ablation氏は、エッジケースの認識が最大の個人の利益をもたらすのに対して、実行基盤は仕様の改善で対処できない、分類学的に異なるエラーをキャッチしている、と述べている。
これらの利得はRL後訓練モデルに一般化され、両方のギャップ次元をブリッジすることがロバストなコード合成に不可欠であることを示す。
将来の研究を促進するために、コードとフレームワークをリリースします。
関連論文リスト
- DuET: Dual Execution for Test Output Prediction with Generated Code and Pseudocode [56.14374797825548]
よりエラー耐性の高い擬似コードに基づいて予測を行うLLMベースの擬似コード実行を提案する。
両手法を機能的多数決で組み合わせた二重実行フレームワークであるDuETを提案する。
LiveCodeBenchでは、DuETは最先端のパフォーマンスを実現し、Pass@1を13.6ppで改善した。
論文 参考訳(メタデータ) (2026-04-13T14:18:58Z) - SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment [98.87395842351627]
大きな言語モデル(LLM)は、巨大なコードコーパスから学習することで、コード生成において優れています。
テキストパターンのトレーニングと機能的正しさの目標の間には、基本的な意味的ギャップが残っている。
我々は、コード生成のためのRLVRトレーニングパイプラインに実行セマンティクスアライメントを統合する新しいアプローチであるCodeRL+を提案する。
論文 参考訳(メタデータ) (2025-10-21T09:48:06Z) - A Preliminary Study on the Robustness of Code Generation by Large Language Models [40.01096420024215]
CoderEvalベンチマークを用いて,LLM生成したコードロバスト性に関する実証的研究を行った。
出力の35.2%は、人間が書いたコードよりも堅牢ではなく、条件チェックの欠如による90%以上の欠陥があることがわかった。
このような問題に対処するため,モデルに依存しないフレームワークであるRobGenを提案する。
論文 参考訳(メタデータ) (2025-03-26T03:44:03Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar [15.421030528350212]
我々は,大規模な言語モデルを評価するために,コード難読化ベースのベンチマークOBFUSEVALを構築した。
私たちは3段階の戦略を使って、記述やコード、コンテキストの依存関係を曖昧にしています。
その結果, 難燃後, 試験合格率の平均低下率は62.5%に達することがわかった。
論文 参考訳(メタデータ) (2024-12-11T05:31:39Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。