論文の概要: Improving Code Translation with Syntax-Guided and Semantic-aware Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.13229v1
- Date: Wed, 13 May 2026 09:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.939524
- Title: Improving Code Translation with Syntax-Guided and Semantic-aware Preference Optimization
- Title(参考訳): Syntax-Guided and Semantic-Aware Preference Optimization によるコード翻訳の改善
- Authors: Yuhan Wu, Huan Zhang, Wei Cheng, Chen Shen, Jingyue Yang, Wei Hu,
- Abstract要約: 我々は、ソースコードから直接、コード翻訳に対する堅牢なセマンティック報酬を導き出さなければならないと論じている。
本稿では,構文ガイダンスとセマンティック・アウェア・プライオリティ最適化によるコード翻訳改善のためのCTOを提案する。
- 参考スコア(独自算出の注目度): 22.90890448332095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have shown immense potential for code translation, yet they often struggle to ensure both syntactic correctness and semantic consistency. While preference-based learning offers a promising alignment strategy, it is hindered by unreliable semantic rewards derived from sparse test cases or restrictive reference translations. We argue that a robust semantic reward for code translation must be derived directly from the source code. In this paper, we propose CTO to improve code translation with syntax-guided and semantic-aware preference optimization. Through contrastive learning, we train a cross-lingual semantic model to directly assess functional equivalence between source and translated code. By formulating code translation as a multi-objective optimization problem, this robust semantic signal is seamlessly unified with compiler-based syntactic feedback within the direct preference optimization framework. Extensive experiments on C++, Java, and Python translations demonstrate that CTO significantly outperforms existing baselines and alternative preference optimization strategies.
- Abstract(参考訳): LLMはコード翻訳に大きな可能性を示しているが、構文的正当性と意味的整合性の両方を保証するのに苦労することが多い。
嗜好に基づく学習は、有望なアライメント戦略を提供するが、スパーステストケースや制限付き参照翻訳から派生した信頼できないセマンティック報酬によって妨げられる。
我々は、ソースコードから直接、コード翻訳に対する堅牢なセマンティック報酬を導き出さなければならないと論じている。
本稿では,構文ガイダンスとセマンティック・アウェア・プライオリティ最適化によるコード翻訳改善のためのCTOを提案する。
コントラスト学習を通じて、ソースコードと翻訳コードの機能的等価性を直接評価するために、言語間セマンティックモデルを訓練する。
多目的最適化問題としてコード翻訳を定式化することにより、この堅牢なセマンティック信号は、直接選好最適化フレームワーク内のコンパイラベースの構文フィードバックとシームレスに統合される。
C++、Java、Pythonの翻訳に関する大規模な実験は、CTOが既存のベースラインと代替の最適化戦略を大幅に上回っていることを示している。
関連論文リスト
- Can Emulating Semantic Translation Help LLMs with Code Translation? A Study Based on Pseudocode [9.384417259861438]
Pseudocodeベースの翻訳は、まずプログラムの意図とロジックを擬似コードに解釈することで、人間の意味翻訳をエミュレートする。
擬似コードに基づく翻訳は、直接翻訳に苦労するプログラムを翻訳するのに役立ちます。
論文 参考訳(メタデータ) (2025-10-01T13:58:19Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.4979142807426]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。
DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文 参考訳(メタデータ) (2024-11-20T02:03:16Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。