Fugu-MT 論文翻訳(概要): Beyond Translation Accuracy: Addressing False Failures in LLM-Based Code Translation

論文の概要: Beyond Translation Accuracy: Addressing False Failures in LLM-Based Code Translation

arxiv url: http://arxiv.org/abs/2605.02195v2
Date: Tue, 05 May 2026 08:14:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 14:45:21.32796
Title: Beyond Translation Accuracy: Addressing False Failures in LLM-Based Code Translation
Title（参考訳）: 翻訳精度を超えて:LLMベースのコード翻訳における偽の失敗に対処する
Authors: Fazle Rabbi, Soumit Kanti Saha, Jinqiu Yang,
Abstract要約: 大規模言語モデル(LLM)は、自動コード翻訳において大きな成功を収めた。本稿では,コード翻訳における誤りの報告は,誤った論理によるものではなく,むしろ評価による誤りによるものであることを実証する。
参考スコア（独自算出の注目度）: 2.3411689215528346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success in automated code translation. While prior work has focused on improving translation accuracy through advanced prompting and iterative repair, the reliability of the underlying evaluation frameworks has received less attention. In this paper, we demonstrate that a significant number of reported failures in code translation are not due to incorrect logic, but rather evaluation-induced errors stemming from improper compilation flags, missing library links, and unconfigured runtime environments. We conduct a large-scale empirical study across five programming languages (C, C++, Java, Python, Go) and three benchmarks (Avatar, CodeNet, EvalPlus), covering 6,164 translations generated by GPT-4o, DeepSeek-Coder, and Magicoder. Our analysis identifies and categorizes common false negatives, distinguishing pipeline-induced failures that affect any model from model-dependent behaviors that vary across LLMs. Our findings highlight the necessity for transparent, configuration-aware evaluation standards to accurately assess progress in LLM-based code translation.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自動コード翻訳において大きな成功を収めた。事前の作業は、高度なプロンプトと反復的な修復による翻訳精度の向上に重点を置いているが、基礎となる評価フレームワークの信頼性は、あまり注目されていない。本稿では,不適切なコンパイルフラグやライブラリリンクの欠如,設定されていない実行環境から発生する評価によるエラーが,コード翻訳の重大な失敗の原因であることを示す。我々は5つのプログラミング言語(C、C++、Java、Python、Go)と3つのベンチマーク(Avatar、CodeNet、EvalPlus)に対して大規模な実証的研究を行い、GPT-4o、DeepSeek-Coder、Magicoderによって生成された6,164の翻訳をカバーした。我々の分析では、LLM毎に異なるモデル依存行動から、パイプラインが引き起こす障害を識別し、分類する。本研究は,LLMに基づくコード翻訳の進捗を正確に評価するために,透過的かつ構成に配慮した評価基準の必要性を強調した。

関連論文リスト

D-LiFT: Improving LLM-based Decompiler Backend via Code Quality-driven Fine-tuning [49.16469288280772]
逆コンパイラは、バイナリから可読なソースコードを再構築する。近年の進歩にもかかわらず、そのアウトプットは構文上の誤りや意味的な誤りに悩まされ、読みにくいままである。大規模言語モデル (LLMs) の出現により、研究者は逆コンパイラ出力を洗練するためのLLMの可能性を探り始めた。 D-LIFTは、微調整強化学習を施した拡張逆コンパイラLLMパイプラインである。
論文参考訳（メタデータ） (2025-06-11T19:09:08Z)
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文参考訳（メタデータ） (2025-03-06T12:14:45Z)
RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文参考訳（メタデータ） (2024-11-21T10:00:52Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Towards Translating Real-World Code with LLMs: A Study of Translating to Rust [13.743967357458287]
大規模言語モデル(LLM)は、ほとんどのプログラミング言語でコードを記述する能力のため、コード翻訳において有望であることを示す。実世界のオープンソースプロジェクトから抽出したコードについて検討する。 FLOURINEは、差分ファジィを使用して、Rust翻訳が元のソースプログラムと同等のI/Oかどうかをチェックする、エンドツーエンドのコード変換ツールである。
論文参考訳（メタデータ） (2024-05-19T10:54:03Z)
Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-03-21T13:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。