Fugu-MT 論文翻訳(概要): Output Format Biases in the Evaluation of Large Language Models for Code Translation

論文の概要: Output Format Biases in the Evaluation of Large Language Models for Code Translation

arxiv url: http://arxiv.org/abs/2403.17214v2
Date: Mon, 13 Oct 2025 01:19:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:29.470598
Title: Output Format Biases in the Evaluation of Large Language Models for Code Translation
Title（参考訳）: コード翻訳のための大規模言語モデルの評価における出力形式バイアス
Authors: Marcos Macedo, Yuan Tian, Filipe R. Cogo, Bram Adams,
Abstract要約: 出力フォーマットのバリエーションを理解し、対処することが重要です。非コード要素は評価指標に干渉し、モデルの性能と比較のバイアスのある評価をもたらす。混合形式出力からソースコードを効果的に抽出する,プロンプトエンジニアリングと正規表現の戦略的組み合わせを提案する。
参考スコア（独自算出の注目度）: 6.75681623173699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code translation between programming languages (PLs) is a critical task in software engineering, facilitating the modernization of legacy systems, ensuring cross-platform compatibility, and enhancing software performance. Most existing studies instruct LLMs to perform code translation and evaluate their performance by either running the generated outputs through test suites or comparing them to reference outputs (ground truth). These outputs, however, may contain not only executable source code but also additional non-code elements, such as natural language explanations or formatting tokens. We refer to the combination of source code and non-code elements as the output format. It is crucial to understand and address variations in output format, as non-code elements can interfere with evaluation metrics, resulting in biased assessments of model performance and comparisons. We conduct an empirical analysis of the outputs from eleven instruct-tuned open-source LLMs, across five PLs: C, C++, Go, Java, and Python. The results show that between 26.4% and 73.7% of outputs produced by our evaluated LLMs necessitate post-processing. To mitigate output format bias, we propose a strategic combination of prompt engineering and regular expressions that effectively extracts source code from mixed-format outputs, enabling the eleven open-source models to achieve an average Code Extraction Success Rate (CSR) of 92.73%. Our empirical study confirms that output format bias affects widely used execution-based metrics, i.e., Computational Accuracy (CA), and text-based metrics, i.e., BLEU, CodeBLEU and CrystalBLEU. Additionally, we test five closed-source LLMs and observe that they also generate varying distributions of output formats, which could lead to output format biases. Our results highlight the need to mitigate the output format bias to enable reliable evaluations in LLMs for code translation.
Abstract（参考訳）: プログラミング言語間のコード翻訳(PL)は、ソフトウェア工学において重要なタスクであり、レガシーシステムの近代化を促進し、クロスプラットフォームの互換性を確保し、ソフトウェアパフォーマンスを向上させる。既存のほとんどの研究は、LCMに対して、テストスイートを通して生成された出力を実行するか、参照出力と比較することで、コード翻訳とパフォーマンスを評価するように指示している。しかし、これらの出力には実行可能なソースコードだけでなく、自然言語の説明やフォーマットトークンなどのコード以外の要素も含まれている。ソースコードと非コード要素の組み合わせを出力形式として参照する。非コード要素が評価指標に干渉し、モデルの性能と比較のバイアスのある評価をもたらすため、出力フォーマットのバリエーションを理解し、対処することが不可欠である。我々は、C、C++、Go、Java、Pythonの5つのPLにまたがる、インストラクションでチューニングされたオープンソースLLM11のアウトプットを実証分析した。その結果,LLMが生成する出力の26.4%から73.7%は後処理を必要とすることがわかった。出力形式バイアスを軽減するために,提案手法と正規表現の戦略的組み合わせを提案し,混合形式出力からソースコードを効果的に抽出し,11個のオープンソースモデルで平均92.73%のコード抽出成功率(CSR)を達成する。我々の実証研究は、出力フォーマットバイアスが広く使われている実行ベースメトリクス、すなわち計算精度(CA)とテキストベースのメトリクス、すなわちBLEU、CodeBLEU、CrystalBLEUに影響を与えることを確認した。さらに、5つのクローズドソースLCMをテストし、出力フォーマットの様々な分布も生成し、出力フォーマットのバイアスを引き起こす可能性があることを観察する。この結果から,コード翻訳におけるLCMの信頼性評価を実現するために,出力フォーマットバイアスを軽減する必要性が浮き彫りになった。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。 LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文参考訳（メタデータ） (2025-07-11T14:29:21Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文参考訳（メタデータ） (2024-10-04T09:50:45Z)
Large Language Models for cross-language code clone detection [3.5202378300682162]
言語間のコードクローン検出は、ソフトウェアエンジニアリングコミュニティで注目を集めている。機械学習の大幅な進歩にインスパイアされた本論文では、言語間コードクローン検出を再考する。
論文参考訳（メタデータ） (2024-08-08T12:57:14Z)
From Effectiveness to Efficiency: Uncovering Linguistic Bias in Large Language Model-based Code Generation [30.914387085368734]
大規模言語モデル(LLM)はコード生成に有望な能力を示している。本稿では,英語と中国語のレンズによる潜在的な言語バイアスについて検討する。
論文参考訳（メタデータ） (2024-06-02T03:22:30Z)
SpecTra: Enhancing the Code Translation Ability of Language Models by Generating Multi-Modal Specifications [17.60108067953814]
大規模言語モデル(LLM)は、コード翻訳の自動化作業にますます利用されている。本稿では,新しい自己整合性フィルタを用いて,まず高品質な仕様を生成するマルチステージアプローチであるSpecTraを提案する。
論文参考訳（メタデータ） (2024-05-28T20:48:30Z)
Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文参考訳（メタデータ） (2024-02-20T13:56:38Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Summarize and Generate to Back-translate: Unsupervised Translation of Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。コード要約と生成による逆翻訳を提案する。提案手法は最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2022-05-23T08:20:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。