Fugu-MT 論文翻訳(概要): Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems

論文の概要: Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems

arxiv url: http://arxiv.org/abs/2508.03931v1
Date: Tue, 05 Aug 2025 21:50:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-07 20:09:22.457084
Title: Analyzing Prominent LLMs: An Empirical Study of Performance and Complexity in Solving LeetCode Problems
Title（参考訳）: 卓越したLLMの分析:LeetCode問題の解法における性能と複雑さの実証的研究
Authors: Everton Guimaraes, Nathalia Nascimento, Chandan Shivalingaiah, Asish Nelapati,
Abstract要約: ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革しています。この研究は、容易、中、難易度にまたがる100と50のLeetCode問題に対して、これらの4つの著名なLLMをベンチマークする。我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) like ChatGPT, Copilot, Gemini, and DeepSeek are transforming software engineering by automating key tasks, including code generation, testing, and debugging. As these models become integral to development workflows, a systematic comparison of their performance is essential for optimizing their use in real world applications. This study benchmarks these four prominent LLMs on one hundred and fifty LeetCode problems across easy, medium, and hard difficulties, generating solutions in Java and Python. We evaluate each model based on execution time, memory usage, and algorithmic complexity, revealing significant performance differences. ChatGPT demonstrates consistent efficiency in execution time and memory usage, while Copilot and DeepSeek show variability as task complexity increases. Gemini, although effective on simpler tasks, requires more attempts as problem difficulty rises. Our findings provide actionable insights into each model's strengths and limitations, offering guidance for developers selecting LLMs for specific coding tasks and providing insights on the performance and complexity of GPT-like generated solutions.
Abstract（参考訳）: ChatGPT、Copilot、Gemini、DeepSeekといった大規模言語モデル(LLM)は、コード生成、テスト、デバッグといった重要なタスクを自動化することで、ソフトウェアエンジニアリングを変革している。これらのモデルが開発ワークフローに不可欠なものとなるにつれて、実世界のアプリケーションでの使用を最適化するためには、それらのパフォーマンスを体系的に比較することが不可欠である。この研究は、この4つの有名なLLMを、簡単、中、困難にまたがる100と50のLeetCode問題でベンチマークし、JavaとPythonのソリューションを生成します。我々は,実行時間,メモリ使用量,アルゴリズムの複雑さに基づいて各モデルを評価する。 ChatGPTは実行時間とメモリ使用量の一貫した効率を示し、CopilotとDeepSeekはタスクの複雑さが増大するにつれて変動を示す。 Geminiは、単純なタスクでは有効だが、問題の難しさが増すにつれて、より多くの試行が必要になる。本研究は,各モデルの強みと限界に対する実用的な洞察を提供するとともに,特定のコーディングタスクに対してLLMを選択する開発者に対してガイダンスを提供し,GPTライクな生成ソリューションの性能と複雑さに関する洞察を提供する。

関連論文リスト

EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [65.48902212293903]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。 EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-10T02:39:55Z)
Breakpoint: Scalable evaluation of system-level reasoning in LLM code agents [40.37993572657772]
本稿では,コード修復タスクを自動的に生成するベンチマーク手法であるBreakpointを紹介する。我々の手法は、最も簡単なタスクの55%から最も難しいタスクの0%まで、最先端のモデルの成功率で任意の難易度にスケール可能であることを実証する。
論文参考訳（メタデータ） (2025-05-30T19:23:51Z)
A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks [2.66269503676104]
本研究では,ChatGPT 03-miniとDeepSeek-R1の2つの主要なモデルを評価する。以上の結果から,どちらのモデルも容易なタスクでも同様に動作するが,ChatGPTは中程度のタスクでDeepSeek-R1より優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-16T14:35:36Z)
DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation [20.75363011870647]
DynaCodeは、大規模言語モデル(LLM)のための動的で複雑さを意識したベンチマークである。複雑性を意識したメトリクスを使用して、LLMを体系的に評価し、コードの複雑さとコールグラフ構造の両方を取り入れる。最新の12のLCMでは、静的コード生成ベンチマークであるMBPP+と比較して平均パフォーマンスが16.8%から45.7%低下している。
論文参考訳（メタデータ） (2025-03-13T15:18:56Z)
Performance Review on LLM for solving leetcode problems [7.377558533352298]
本稿では,Lietcodeのプログラミング問題に対するLLM(Large Language Models)の総合的な性能評価について述べる。我々は, GPT-4 と GPT-3.5-turbo を含む複数の LLM の解を生成する。コード生成や問題解決タスクにおける現在のLLMの長所と短所を強調した。
論文参考訳（メタデータ） (2025-02-16T08:52:45Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。 LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文参考訳（メタデータ） (2024-06-18T00:44:58Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。