論文の概要: TRACE: Evaluating Execution Efficiency of LLM-Based Code Translation
- arxiv url: http://arxiv.org/abs/2603.16479v1
- Date: Tue, 17 Mar 2026 13:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.286963
- Title: TRACE: Evaluating Execution Efficiency of LLM-Based Code Translation
- Title(参考訳): TRACE:LLMに基づくコード翻訳の実行効率の評価
- Authors: Zhihao Gong, Zeyu Sun, Dong Huang, Qingyuan Liang, Jie M. Zhang, Dan Hao,
- Abstract要約: 大規模言語モデル(LLM)の効率性を明確に評価する最初のベンチマークである textbftextsctrace を提案する。
textsctraceには、C++、Java、Pythonにまたがる1,000の効率クリティカルなタスクが含まれている。
本研究は,効率をコード翻訳の必須次元として確立し,テキストスクラスを効率指向評価の基礎として位置づけた。
- 参考スコア(独自算出の注目度): 15.051178553018746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have substantially improved the functional correctness of code translation, the critical dimension of \textit{execution efficiency} remains overlooked. We present \textbf{\textsc{trace}}, the first benchmark to explicitly assess efficiency in LLM-translated code. \textsc{trace} includes 1,000 efficiency-critical tasks across C++, Java, and Python, each augmented with stress tests that reveal efficiency degradations often overlooked by small-scale tests. Using \textsc{trace}, we conduct an extensive evaluation of 28 representative LLMs and highlight several key insights: 1) Correctness is not a reliable proxy for efficiency: the correctness leader \textit{Claude-4-think} achieves only mid-level time efficiency, outperformed by smaller open-source LLMs such as \textit{Qwen2.5-Coder-14B-Instruct}. 2) Inefficiency is both prevalent and patterned: 23.5\% of correct translations exhibit pronounced inefficiency, distributed across algorithmic faults (11.9\%), language construct mismatches (66.4\%), and resource mismanagement (21.7\%). 3) Inference-time prompt strategies bring only modest improvements, suggesting that current LLMs lack intrinsic efficiency awareness. Together, our results establish efficiency as an essential dimension of code translation and position \textsc{trace} as a principled foundation for efficiency-oriented evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード翻訳の機能的正確性を大幅に改善しているが、‘textit{execution efficiency} の臨界次元は見過ごされ続けている。
LLMに変換されたコードで効率を明示的に評価する最初のベンチマークである、‘textbf{\textsc{trace}} を提示する。
\textsc{trace}には、C++、Java、Pythonにまたがる1,000の効率クリティカルなタスクが含まれており、それぞれにストレステストが強化されている。
textsc{trace} を用いて、28の代表的なLCMを広範囲に評価し、いくつかの重要な知見を浮き彫りにする。
正当性リーダー \textit{Claude-4-think} は、より小さなオープンソース LLM である \textit{Qwen2.5-Coder-14B-Instruct} に比較して、中間レベルの時間効率しか達成しない。
2) 正翻訳の23.5.%は、アルゴリズム上の欠陥(11.9.%)、言語構成ミスマッチ(66.4.%)、資源管理ミス(21.7.%)に顕著な非効率性を示す。
3) 推論時プロンプト戦略は緩やかに改善され, 現在のLCMには本質的な効率意識が欠如していることが示唆された。
この結果から,コード翻訳の必須次元として効率性を確立し,効率指向評価の原理的基礎として位置づけた。
関連論文リスト
- Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。
本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。
その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-17T02:40:19Z) - TRACY: Benchmarking Execution Efficiency of LLM-Based Code Translation [15.302454413096335]
LLM変換されたコードの実行効率を評価するために設計された,最初の総合ベンチマークであるTRACYを紹介する。
ベンチマークの結果は、C++、Java、Pythonで1,011のコード変換タスクで構成されている。
我々の研究は、将来のLLMベースのコード翻訳において、正確さと効率を共同最適化する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-15T13:33:52Z) - On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。
コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文 参考訳(メタデータ) (2025-07-22T13:40:26Z) - Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。
提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。
我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-07-15T08:25:02Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。