論文の概要: An Experimental Study of Real-Life LLM-Proposed Performance Improvements
- arxiv url: http://arxiv.org/abs/2510.15494v1
- Date: Fri, 17 Oct 2025 10:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.567678
- Title: An Experimental Study of Real-Life LLM-Proposed Performance Improvements
- Title(参考訳): 実時間LDMによる性能改善の実験的検討
- Authors: Lirong Yi, Gregory Gay, Philipp Leitner,
- Abstract要約: 大きな言語モデル(LLM)はコードを生成することができますが、高速コードを生成することができますか?
我々は,オープンソースのJavaプログラムから抽出した65の実世界のタスクのデータセットを用いて,この問題を研究する。
- 参考スコア(独自算出の注目度): 2.503024366864326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can generate code, but can they generate fast code? In this paper, we study this question using a dataset of 65 real-world tasks mined from open-source Java programs. We specifically select tasks where developers achieved significant speedups, and employ an automated pipeline to generate patches for these issues using two leading LLMs under four prompt variations. By rigorously benchmarking the results against the baseline and human-authored solutions, we demonstrate that LLM-generated code indeed improves performance over the baseline in most cases. However, patches proposed by human developers outperform LLM fixes by a statistically significant margin, indicating that LLMs often fall short of finding truly optimal solutions. We further find that LLM solutions are semantically identical or similar to the developer optimization idea in approximately two-thirds of cases, whereas they propose a more original idea in the remaining one-third. However, these original ideas only occasionally yield substantial performance gains.
- Abstract(参考訳): 大きな言語モデル(LLM)はコードを生成することができますが、高速コードを生成することができますか?
本稿では,オープンソースのJavaプログラムから抽出した65個の実世界のタスクのデータセットを用いて,この問題を考察する。
具体的には、開発者が大幅なスピードアップを達成したタスクを選択し、自動パイプラインを使用して、これらの問題に対するパッチを生成する。
ベースラインと人為的なソリューションに対して厳密なベンチマークを行うことで、LLM生成したコードは、ほとんどの場合、ベースラインよりもパフォーマンスが向上することを示す。
しかしながら、人間の開発者によって提案されたパッチは、LSMの修正を統計的に有意なマージンで上回り、LSMが真に最適な解決策を見つけるのに足りていないことがしばしば示される。
さらに、LLMソリューションは、約3分の2のケースにおいて、意味論的に同一か、開発者最適化のアイデアと類似しているのに対し、残りの3分の1ではより独創的なアイデアを提案する。
しかし、これらのオリジナルアイデアは時折大きなパフォーマンス向上をもたらすだけである。
関連論文リスト
- LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。
提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。
実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文 参考訳(メタデータ) (2025-05-29T19:06:14Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Search-Based LLMs for Code Optimization [16.843870288512363]
開発者によって書かれたコードは、通常効率上の問題に悩まされ、様々なパフォーマンス上のバグを含んでいる。
最近の研究は、タスクをシーケンス生成問題とみなし、大規模言語モデル(LLM)のようなディープラーニング(DL)技術を活用している。
改良された最適化手法の反復的洗練と発見を可能にする,SBLLM という検索ベース LLM フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T06:59:46Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。