論文の概要: Boosting Automatic Java-to-Cangjie Translation with Multi-Stage LLM Training and Error Repair
- arxiv url: http://arxiv.org/abs/2605.07403v1
- Date: Fri, 08 May 2026 07:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.908362
- Title: Boosting Automatic Java-to-Cangjie Translation with Multi-Stage LLM Training and Error Repair
- Title(参考訳): マルチステージLDMトレーニングとエラー修正によるJavaからCangjieへの自動翻訳の高速化
- Authors: Xinyue Liang, Jingxuan Zhang, Lin Li, Jun Zhang, Junhao Chen,
- Abstract要約: 本稿では,Java コードを Cangjie コードに変換するための反復的エラー修復手法を用いたトレーニングフレームワークを提案する。
実験の結果, 並列データに制限があるため, 現状の手法に比べて機能的等価性は6.06%向上することがわかった。
- 参考スコア(独自算出の注目度): 23.50835504751422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid evolution of emerging programming language ecosystems, the demand for code translation to low-resource languages continues to grow. As Cangjie emerges as a new programming language, its ecosystem and development toolchains are rapidly expanding. Automated translation from popular programming languages to Cangjie is therefore valuable for practical development. However, constrained by both insufficient Cangjie knowledge and scarce parallel code corpora, general Large Language Models (LLMs) are prone to syntactic errors and semantic as well as structural misalignment in code translation. Existing approaches typically rely on fine-tuning with large-scale parallel data, but they cannot reliably improve compilability or semantic consistency for low-resource Cangjie languages. To tackle these challenges, we propose a multi-stage training framework of LLMs that employs the iterative error repair technique to translate Java code into Cangjie code. This training framework performs training on LLMs, gradually integrating knowledge and achieving semantic alignment as well as structure awareness. During the code translation, we also combine the compiler feedback and error repair case retrieval to repair the incorrect Cangjie code. We construct syntactic knowledge and monolingual instruction datasets to train the LLM. In addition, we also build a Cangjie error repair repository to support error repair in our approach. Experimental results show that, with limited parallel data, our approach improves functional equivalence by 6.06\% compared to the state-of-the-art approaches. Meanwhile, ablation studies confirm that each training stage positively contributes to the final performance.
- Abstract(参考訳): 新興プログラミング言語エコシステムの急速な進化により、低リソース言語へのコード翻訳の需要は増え続けている。
Cangjieは新しいプログラミング言語として登場し、そのエコシステムと開発ツールチェーンは急速に拡大している。
そのため、一般的なプログラミング言語からCangjieへの自動翻訳は実用的な開発に有用である。
しかし、Cangjie知識の不足と並列コードコーパスの不足により、LLM(General Large Language Models)は構文的誤りや意味論、およびコード翻訳における構造的ミスアライメントに制約される。
既存のアプローチは通常、大規模並列データによる微調整に頼っているが、低リソースのCangjie言語では、コンパイル性やセマンティック一貫性を確実に改善することはできない。
これらの課題に対処するために,Java コードを Cangjie コードに変換する反復的エラー修復手法を用いた LLM のマルチステージトレーニングフレームワークを提案する。
このトレーニングフレームワークは、LLMのトレーニングを実行し、知識を徐々に統合し、意味的アライメントと構造意識を達成する。
コード翻訳中、コンパイラのフィードバックとエラー修正ケースの検索を組み合わせて、間違ったCangjieコードを修復する。
LLMを学習するために,構文知識と単言語指導データセットを構築した。
さらに私たちは,Cangjieエラー修復リポジトリを構築して,エラー修正をアプローチでサポートしています。
実験結果から, 並列データに制限があるため, 現状の手法に比べて機能的等価性は6.06倍向上することがわかった。
一方、アブレーション研究は、各訓練段階が最終成績に肯定的に寄与することを確認する。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Program Semantic Inequivalence Game with Large Language Models [20.43560028315856]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。
本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。
この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文 参考訳(メタデータ) (2025-05-02T20:03:35Z) - Scaffolded Language Models with Language Supervision for Mixed-Autonomy: A Survey [52.00674453604779]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - Semantic Alignment-Enhanced Code Translation via an LLM-Based Multi-Agent System [24.52067108242477]
コード翻訳は、ソフトウェアマイグレーション、システムアブレーション、クロスプラットフォーム開発に不可欠である。
従来のルールベースのメソッドは手書きのルールに依存している。
最近では、LLM(Large Language Models)の進歩により、学習ベースのコード翻訳がさらに強化されている。
本稿では,構文誤りや意味的誤りを解消し,LLMに基づくコード翻訳を強化した新しいマルチエージェントシステムTransagENTを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:53:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。