論文の概要: Review Beats Planning: Dual-Model Interaction Patterns for Code Synthesis
- arxiv url: http://arxiv.org/abs/2603.03406v1
- Date: Tue, 03 Mar 2026 16:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.040493
- Title: Review Beats Planning: Dual-Model Interaction Patterns for Code Synthesis
- Title(参考訳): コード合成のためのデュアルモデルインタラクションパターン
- Authors: Jan Miller,
- Abstract要約: HumanEval+では、Plan-then-codeはコードスペシャリスト単独に比べてパフォーマンスを2.4パーセント低下させる。
コードスペシャリストが自由に生成し、計画ではなく推論モデルレビューを行うと、同じハードウェア上の同じ2つのモデルが90.2%のパス@1を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How should two language models interact to produce better code than either can alone? The conventional approach -- a reasoning model plans, a code specialist implements -- seems natural but fails: on HumanEval+, plan-then-code degrades performance by 2.4 percentage points versus the code specialist alone. We show that reversing the interaction changes everything. When the code specialist generates freely and the reasoning model reviews instead of plans, the same two models on the same hardware achieve 90.2% pass@1 -- exceeding GPT-4o (87.2%) and O1 Preview (89.0%) -- on ~$2/hr of commodity GPU. Cross-benchmark validation across 542 problems (HumanEval+ and MBPP+) reveals a moderating variable: review effectiveness scales with specification richness, yielding 4x more improvement on richly-specified problems (+9.8pp) than on lean ones (+2.3pp), while remaining net-positive in both cases. The practical implication is twofold: compose models by their cognitive strengths (reviewers review, coders code), and invest in specification quality to amplify the returns.
- Abstract(参考訳): 2つの言語モデルが相互作用して、どちらか一方よりも優れたコードを生成するには、どうすればよいのか?
従来のアプローチ -- 推論モデルプラン、コードスペシャリストが実装する -- は自然に思えるが、失敗する。
インタラクションの反転がすべてを変えることを示す。
コードスペシャリストが計画よりも自由に生成し、推論モデルレビューを行うと、同じハードウェア上で同じ2つのモデルが90.2%パス@1 -- GPT-4o (87.2%)とO1 Preview (89.0%) -- で、コモディティGPUの約2/hrで達成される。
542問題(HumanEval+とMBPP+)にまたがるクロスベンチマークの検証では、モデレーション変数が明らかにされている。
現実的な意味は2つある: 認知力(リビューアレビュー、コーダコード)でモデルを構成し、リターンを増幅するために仕様品質に投資する。
関連論文リスト
- AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation [71.42965967582147]
既存のアプローチは、Large Language Models (LLM) を用いたテストケースの合成を試みる
包括的なテストケース構築のために、textbfFeedback-Bench Iterative Framework$を提案します。
私たちのデータセットは、平均的真正率(TPR)が89.37%、真負率(TNR)が90.89%で、CodeContestsとCodeContests+をそれぞれ4.32%、9.37%で大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-20T07:32:44Z) - Evaluating Large Language Models for Code Review [2.0261749670612637]
GPT4oとGemini 2.0 Flashを492 AIでテストしました。
GPT4o と Gemini 2.0 Flash はそれぞれ68.50% と63.89% のコード正当性を正しく分類し、67.83% と54.26% のコード正当性を修正した。
論文 参考訳(メタデータ) (2025-05-26T16:47:29Z) - Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models [4.39614901077936]
OpenAI の GPT-2 と Meta-token の Llama-2-7b-7bhf on Theory of Mind (ToM) データセット。
Llama-2は、特に低温において、予測精度においてGPT-2より一貫して優れる。
推論の複雑さが増大するにつれて、モデル応答はさらに多様化する。
論文 参考訳(メタデータ) (2025-04-22T05:52:55Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Faster Cascades via Speculative Decoding [66.16909847419198]
カスケードと投機的復号化は、言語モデルの推論効率を改善するためのアプローチである。
提案手法は,投機的実行による推論規則を実装した新しい投機的カスケード手法である。
我々の手法は、カスケードや投機的復号化ベースラインよりもコスト品質のトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T16:55:08Z) - CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution [36.30158138035512]
800のPython関数(3-13行)からなるベンチマークを示す。
各関数は入力出力対を持ち、入力予測と出力予測という2つの自然なタスクに繋がる。
単純なCoTと微調整方式によってベンチマークのパフォーマンスが向上するが、その解決には程遠いことを示す。
論文 参考訳(メタデータ) (2024-01-05T20:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。