論文の概要: TRACY: Benchmarking Execution Efficiency of LLM-Based Code Translation
- arxiv url: http://arxiv.org/abs/2508.11468v1
- Date: Fri, 15 Aug 2025 13:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.965256
- Title: TRACY: Benchmarking Execution Efficiency of LLM-Based Code Translation
- Title(参考訳): TRACY: LLMベースのコード翻訳のベンチマーク実行効率
- Authors: Zhihao Gong, Zeyu Sun, Dong Huang, Qingyuan Liang, Jie M. Zhang, Dan Hao,
- Abstract要約: LLM変換されたコードの実行効率を評価するために設計された,最初の総合ベンチマークであるTRACYを紹介する。
ベンチマークの結果は、C++、Java、Pythonで1,011のコード変換タスクで構成されている。
我々の研究は、将来のLLMベースのコード翻訳において、正確さと効率を共同最適化する必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 15.302454413096335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic code translation is a fundamental task in modern software development. While the advent of Large Language Models (LLMs) has significantly improved the correctness of code translation, the critical dimension of execution efficiency remains overlooked. To address this gap, we introduce TRACY, the first comprehensive benchmark designed to evaluate the execution efficiency of LLM-translated code. TRACY is constructed through an LLM-driven two-stage pipeline: an initial stage generates a suite of stress tests to amplify performance differences, followed by an efficiency-oriented task pruning stage that isolates the efficiency-distinguishing tasks. The resulting benchmark comprises 1,011 code translation tasks across C++, Java, and Python, each accompanied by an average of 22.1 verified reference translations and 10 computationally demanding tests. Our extensive evaluation of 26 representative LLMs reveals that even top-tier LLMs struggle to consistently produce efficient code translations. For instance, Claude-4-think, the leading model for correctness, ranks eighth overall when time efficiency is taken into account, surpassed by several smaller open-source models. We further pinpoint that algorithmic flaws and improper resource handling are the most detrimental, causing a median time slowdown of 5.6$\times$ and memory increase of 12.0$\times$, respectively. Our work underscores the necessity of jointly optimizing for correctness and efficiency in future LLM-based code translation.
- Abstract(参考訳): 自動コード翻訳は、現代のソフトウェア開発における基本的なタスクである。
LLM(Large Language Models)の出現はコード翻訳の正確性を大幅に向上させたが、実行効率の重要な次元は見過ごされ続けている。
このギャップに対処するため, TRACY は LLM 変換コードの実行効率を評価するために設計された最初の総合的なベンチマークである。
TRACYはLLM駆動の2段階パイプラインで構築されており、初期ステージはパフォーマンスの違いを増幅する一連のストレステストを生成し、続いて効率性に配慮したタスクプルーニングステージが実行され、効率性の識別タスクが分離される。
ベンチマークの結果、C++、Java、Pythonにまたがる1,011のコード翻訳タスクで構成されており、それぞれに平均22.1の検証済み参照翻訳と10の計算要求テストが伴っている。
26の代表的なLLMを広範囲に評価した結果,最上位のLLMでさえ,一貫した効率のよいコード翻訳に苦慮していることが明らかとなった。
例えば、正確性の主要なモデルであるClaude-4-thinkは、時間効率を考慮して総合的に8位にランクされ、いくつかのより小さなオープンソースモデルに取って代わられている。
さらに、アルゴリズム上の欠陥と不適切なリソースハンドリングが最も有害であり、それぞれ5.6$\times$と12.0$\times$が中央値のスローダウンを引き起こしていることを指摘します。
我々の研究は、将来のLLMベースのコード翻訳において、正確さと効率を共同最適化する必要性を浮き彫りにしている。
関連論文リスト
- On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - ECCO: Can We Improve Model-Generated Code Efficiency Without Sacrificing Functional Correctness? [12.862825053595934]
ECCOは、自然言語(NL)ベースのコード生成と履歴ベースのコード編集という、2つのパラダイムを通じてプログラム効率を評価するためのベンチマークである。
実行情報の追加は機能的正確性を維持するのによく役立ち、NLフィードバックは効率を向上する。
論文 参考訳(メタデータ) (2024-07-19T05:47:40Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。