論文の概要: Evaluating Large Language Models for Code Translation: Effects of Prompt Language and Prompt Design
- arxiv url: http://arxiv.org/abs/2509.12973v1
- Date: Tue, 16 Sep 2025 11:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.056979
- Title: Evaluating Large Language Models for Code Translation: Effects of Prompt Language and Prompt Design
- Title(参考訳): コード翻訳のための大規模言語モデルの評価:Prompt言語とPrompt設計の効果
- Authors: Aamer Aljagthami, Mohammed Banabila, Musab Alshehri, Mohammed Kabini, Mohammad D. Alahmadi,
- Abstract要約: 大規模言語モデル(LLM)はソースコードの自動翻訳を約束している。
しかし、モデル選択、迅速な設計、言語形翻訳の質に関する比較証拠は依然として限られている。
本研究は,C++,Java,Python,C#間のコード翻訳において,最先端のLLMを体系的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise for automated source-code translation, a capability critical to software migration, maintenance, and interoperability. Yet comparative evidence on how model choice, prompt design, and prompt language shape translation quality across multiple programming languages remains limited. This study conducts a systematic empirical assessment of state-of-the-art LLMs for code translation among C++, Java, Python, and C#, alongside a traditional baseline (TransCoder). Using BLEU and CodeBLEU, we quantify syntactic fidelity and structural correctness under two prompt styles (concise instruction and detailed specification) and two prompt languages (English and Arabic), with direction-aware evaluation across language pairs. Experiments show that detailed prompts deliver consistent gains across models and translation directions, and English prompts outperform Arabic by 13-15%. The top-performing model attains the highest CodeBLEU on challenging pairs such as Java to C# and Python to C++. Our evaluation shows that each LLM outperforms TransCoder across the benchmark. These results demonstrate the value of careful prompt engineering and prompt language choice, and provide practical guidance for software modernization and cross-language interoperability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェアのマイグレーション、メンテナンス、相互運用性に不可欠な機能であるソースコードの自動翻訳を約束している。
しかし、モデル選択、プロンプト設計、言語形状変換の質に関する比較証拠は、まだ限られている。
本研究では,従来のベースライン(TransCoder)とともに,C++,Java,Python,C#間のコード翻訳のための最先端LLMを体系的に評価する。
BLEU と CodeBLEU を用いて,2つのプロンプトスタイル (簡潔な命令と詳細な仕様) と2つのプロンプト言語 (英語とアラビア語) による統語的忠実度と構造的正しさを定量化し,言語ペア間の方向認識による評価を行う。
実験の結果、詳細なプロンプトはモデルや翻訳の方向で一貫した利得をもたらし、英語はアラビア語より13~15%向上していることがわかった。
最高のパフォーマンスモデルは、Java、C#、Python、C++のような挑戦的なペア上で最高のCodeBLEUを達成した。
評価の結果,各LLMはベンチマーク全体でTransCoderより優れていた。
これらの結果は、注意深いプロンプトエンジニアリングと言語選択の価値を示し、ソフトウェアモダナイゼーションと言語間の相互運用性のための実践的なガイダンスを提供する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - Evaluating Programming Language Confusion [6.462594894731934]
コードのための大規模言語モデル(Code LLM)は、ソフトウェア工学において大きな注目を集めている。
これらのモデルは、プログラミング概念の理解、アルゴリズムの実装、さらには異なるプログラミング言語のブリッジ化において、顕著な能力を示してきた。
これらの進歩にもかかわらず、コードLLMは、意図しない言語でコードを生成するために、しばしばプログラミング言語の混乱に苦しむ。
論文 参考訳(メタデータ) (2025-03-17T18:14:15Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。
この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T21:41:31Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。