Fugu-MT 論文翻訳(概要): Learning Bug Context for PyTorch-to-JAX Translation with LLMs

論文の概要: Learning Bug Context for PyTorch-to-JAX Translation with LLMs

arxiv url: http://arxiv.org/abs/2510.09898v1
Date: Fri, 10 Oct 2025 22:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 18:06:29.678622
Title: Learning Bug Context for PyTorch-to-JAX Translation with LLMs
Title（参考訳）: LLMを用いたPyTorch-to-JAX翻訳におけるバグコンテキストの学習
Authors: Hung Phan, Son Le Vu, Ali Jannesari,
Abstract要約: 我々は、PyTorchをJAX翻訳に強化するプロンプト拡張フレームワークであるT2Jを紹介します。我々のパイプラインは2つのPyTorchソースを組み立て、GPT-4o-miniを使って初期のJAXドラフトを生成します。 T2J CodeTrans Score、T2J FixCost Score、T2J Comparison Score。
参考スコア（独自算出の注目度）: 9.947100398867653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent progress of large language models (LLMs) on code translation among mainstream languages, translating PyTorch to JAX remains nontrivial. The two libraries, though both embedded in Python, differ in core design, execution semantics, and ecosystem maturity; JAX is newer and comparatively underrepresented in public code, and parallel PyTorch--JAX corpora are limited. Weaknesses in existing evaluation further complicate cross-framework benchmarking. We present T2J, a prompt-augmentation framework that strengthens LLM-based PyTorch to JAX translation. Our pipeline (i) assembles two PyTorch sources -- the problem-solving set from TorchLeet (Aroori & Chien, 2025) and a GitHub-derived set from CodeParrot (Wolf et al., 2022) -- and uses GPT-4o-mini to produce initial JAX drafts; (ii) engages two professional developers to iteratively repair those drafts until functional equivalence, yielding a curated fixed-bug dataset of common errors and patches; and (iii) constructs augmented prompts that inject structured guidance from these fixes to steer lightweight LLMs (e.g., GPT-4o-mini). We also introduce three metrics tailored to PyTorch to JAX: T2J CodeTrans Score, T2J FixCost Score (an LLM-based estimate of bug-fix effort), and T2J Comparison Score (LLM-as-judge). Empirically, T2J raises GPT-4o-mini performance by up to 10% on CodeBLEU, 50% on T2J FixCost Score, 1.33 points on T2J CodeTrans Score (0--4 scale), and 100% on T2J Comparison Score; moreover, the generated code runs up to 2.5x faster than the baseline.
Abstract（参考訳）: 主要な言語間のコード翻訳における大規模言語モデル(LLM)の最近の進歩にもかかわらず、PyTorchをJAXに翻訳するのは簡単ではない。 2つのライブラリはどちらもPythonに組み込まれているが、コア設計、実行セマンティクス、エコシステムの成熟度が異なる。既存の評価の弱点は、クロスフレームワークのベンチマークをさらに複雑にする。我々は LLM ベースの PyTorch を JAX 翻訳に強化するプロンプト拡張フレームワーク T2J を提案する。パイプライン (i)TorchLeet(Aroori & Chien, 2025)の問題解決セットとCodeParrot(Wolf et al , 2022)のGitHub由来セットの2つのPyTorchソースを組み立て、GPT-4o-miniを使用して初期のJAXドラフトを生成する。 (ii) 2人のプロの開発者が、機能的同値になるまで、これらのドラフトを反復的に修正し、共通のエラーとパッチの修正済みの固定バグデータセットを生成します。第三に、これらの修正から構造化ガイダンスを注入し、軽量LCM(例えば、GPT-4o-mini)を操る拡張プロンプトを構築する。 T2J CodeTrans Score、T2J FixCost Score(LLMに基づくバグ修正の見積もり)、T2J Comparison Score(LLM-as-judge)という3つのメトリクスも導入しています。実証的に、T2JはGPT-4o-miniのパフォーマンスを最大10%向上させ、T2J FixCost Scoreで50%、T2J CodeTrans Scoreで1.33ポイント、T2J Comparison Scoreで100%向上させた。

関連論文リスト

A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
May the Feedback Be with You! Unlocking the Power of Feedback-Driven Deep Learning Framework Fuzzing via LLMs [20.03968975178177]
ファズテスト(ファズテスト、fuzzing)は、ディープラーニング(DL)フレームワークのバグを見つけるための、シンプルで効果的な方法である。本稿では,LLM(Large Language Model)とLLM(Generation LLM)という2つの大言語モデル(LLM)からなるフィードバック情報を効果的に活用するFUELを提案する。 FUELはPyTorchのラインコードカバレッジを改善し、最先端のベースラインよりも9.15%、14.70%向上できることを示す。
論文参考訳（メタデータ） (2025-06-21T08:51:53Z)
VisCoder: Fine-Tuning LLMs for Executable Python Visualization Code Generation [69.35779796364413]
提案するVisCode-200Kは,Pythonによる可視化と自己補正のための大規模インストラクションチューニングデータセットである。 1)オープンソースリポジトリからの検証済みプロットコードと自然言語命令と描画プロットのペア,(2)Code-Feedbackからの45Kのマルチターン補正ダイアログ。
論文参考訳（メタデータ） (2025-06-04T13:24:44Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。 19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
CoTran: An LLM-based Code Translator using Reinforcement Learning with Feedback from Compiler and Symbolic Execution [6.72474166614441]
既存のコード翻訳法では、翻訳されたコードが確実にコンパイルされるか、入力されたコードに実質的な機能的等価性を持つことを保証するための訓練が欠如している。本研究では、強化学習、コンパイラフィードバック、シンボリック実行(シンジケート)ベースのテストフィードバックを用いて、LLMを微調整する。我々は、CoTranと、人書きトランスパイラ、LLMベースの翻訳ツール、ChatGPTを含む14のコード翻訳ツールを比較した広範な実験を行った。
論文参考訳（メタデータ） (2023-06-11T19:47:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。