論文の概要: Verifier-Guided Code Translation via Meta-Step Decoding
- arxiv url: http://arxiv.org/abs/2605.17626v1
- Date: Sun, 17 May 2026 19:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.235515
- Title: Verifier-Guided Code Translation via Meta-Step Decoding
- Title(参考訳): メタステップデコードによる検証誘導型コード翻訳
- Authors: Tianyang Zhou, Somesh Jha, Mihai Christodorescu, Kirill Levchenko, Varun Chandrasekaran,
- Abstract要約: Decoding Time Verification (DTV) は、構造境界を検証者誘導型デコードのためのメタステップとして扱うフレームワークである。
C-to-RustおよびJavaScript-to-TypeScript翻訳におけるDTVの評価を行った。
- 参考スコア(独自算出の注目度): 28.652734186539107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling is an important mechanism for improving large language models, especially on tasks with deterministic verifiers. Code translation is a canonical example: the source program constrains valid outputs, while compilers, type check- ers, and behavioral checks provide exact pass/fail feedback. Existing approaches typically apply these verifiers only after generation, which is inefficient because early errors corrupt the autoregressive context and are rarely corrected later. We introduce Decoding Time Verification (DTV), a framework that treats structural boundaries as meta steps for verifier-guided decoding. DTV interleaves generation with verifier calls under a state-machine controller that enforces valid prefixes, using structural-boundary checks and structure-aware rollback to prevent error propagation while reducing wasted tokens. We evaluate DTV on C-to-Rust and JavaScript-to-TypeScript translation. Using Qwen3-4B as the primary generator under matched token budgets, DTV improves pass rates from 72.3% to 82.0% on C-to-Rust and from 33.3% to 46.0% on JavaScript-to-TypeScript relative to matched self-refinement baselines, while using fewer tokens per case; the same trend largely transfers to Gemma-4-E4B. In the evaluated cost-matched grid, DTV achieves a more favorable pass-rate-cost tradeoff than post-hoc verification or sampling-based scaling. These results show that verifier-guided decoding is an effective use of inference-time compute for code translation.
- Abstract(参考訳): テストタイムスケーリングは、特に決定論的検証器を持つタスクにおいて、大きな言語モデルを改善するための重要なメカニズムである。
ソースコードプログラムは有効な出力を制限し、コンパイラ、型チェックアー、振る舞いチェックは正確なパス/フェイルフィードバックを提供する。
既存の手法では、これらの検証は生成後にのみ適用されるが、初期のエラーが自己回帰の文脈を損なうため、後になって修正されることはほとんどないため、非効率である。
Decoding Time Verification (DTV) は、構造境界を検証者誘導復号化のためのメタステップとして扱うフレームワークである。
DTVは、構造境界チェックと構造対応ロールバックを使用して、有効なプレフィックスを強制するステートマシンコントローラの下でバリデーションコールで生成をインターリーブし、無駄なトークンを減らしながらエラーの伝播を防止する。
C-to-RustおよびJavaScript-to-TypeScript翻訳におけるDTVの評価を行った。
一致するトークン予算の下でQwen3-4Bをプライマリジェネレータとして使用することにより、DTVはC-to-Rustで72.3%から82.0%に、マッチしたセルフリファインメントベースラインでJavaScript-to-TypeScriptで33.3%から46.0%に改善し、ケースあたりトークンが少なくなった。
評価されたコストマッチンググリッドでは、DTVはポストホック検証やサンプリングベーススケーリングよりも、より好ましいパスレートコストトレードオフを実現している。
これらの結果から,検証者誘導復号化はコード翻訳における推論時間計算の有効利用であることが示された。
関連論文リスト
- Beyond Translation Accuracy: Addressing False Failures in LLM-Based Code Translation [2.3411689215528346]
大規模言語モデル(LLM)は、自動コード翻訳において大きな成功を収めた。
本稿では,コード翻訳における誤りの報告は,誤った論理によるものではなく,むしろ評価による誤りによるものであることを実証する。
論文 参考訳(メタデータ) (2026-05-04T03:49:58Z) - Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - SemGuard: Real-Time Semantic Evaluator for Correcting LLM-Generated Code [46.20378145112059]
ポストホック修復パイプラインは、実行後にのみそのような障害を検出する。
本稿では,実時間で行レベルのセマンティック監視を行うセマンティック評価フレームワークSemGuardを紹介する。
論文 参考訳(メタデータ) (2025-09-29T09:21:32Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization [93.95299500688286]
本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
論文 参考訳(メタデータ) (2020-06-29T17:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。