Fugu-MT 論文翻訳(概要): A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks

論文の概要: A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks

arxiv url: http://arxiv.org/abs/2503.13549v1
Date: Sun, 16 Mar 2025 14:35:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.659178
Title: A Showdown of ChatGPT vs DeepSeek in Solving Programming Tasks
Title（参考訳）: プログラミング課題解決におけるChatGPTとDeepSeekの実証
Authors: Ronas Shakya, Farhad Vadiee, Mohammad Khalil,
Abstract要約: 本研究では,ChatGPT 03-miniとDeepSeek-R1の2つの主要なモデルを評価する。以上の結果から,どちらのモデルも容易なタスクでも同様に動作するが,ChatGPTは中程度のタスクでDeepSeek-R1より優れていたことが示唆された。
参考スコア（独自算出の注目度）: 2.66269503676104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advancement of large language models (LLMs) has created a competitive landscape for AI-assisted programming tools. This study evaluates two leading models: ChatGPT 03-mini and DeepSeek-R1 on their ability to solve competitive programming tasks from Codeforces. Using 29 programming tasks of three levels of easy, medium, and hard difficulty, we assessed the outcome of both models by their accepted solutions, memory efficiency, and runtime performance. Our results indicate that while both models perform similarly on easy tasks, ChatGPT outperforms DeepSeek-R1 on medium-difficulty tasks, achieving a 54.5% success rate compared to DeepSeek 18.1%. Both models struggled with hard tasks, thus highlighting some ongoing challenges LLMs face in handling highly complex programming problems. These findings highlight key differences in both model capabilities and their computational power, offering valuable insights for developers and researchers working to advance AI-driven programming tools.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、AI支援プログラミングツールの競争環境を生み出した。本研究では,ChatGPT 03-miniとDeepSeek-R1の2つの主要なモデルを評価する。容易,中,難易度3レベルの29のプログラミングタスクを用いて,各モデルが許容するソリューション,メモリ効率,実行時の性能評価を行った。以上の結果から,両モデルとも容易なタスクでも同様に動作するが,ChatGPTはDeepSeek-R1よりも高い性能を示し,DeepSeek 18.1%と比較して54.5%の成功率を達成した。どちらのモデルも困難なタスクに苦しんだため、LLMが高度に複雑なプログラミング問題に対処する上で直面しているいくつかの課題が浮き彫りになった。これらの発見は、モデル能力と計算能力の両方の重要な違いを強調し、AI駆動プログラミングツールの進歩に取り組んでいる開発者と研究者に貴重な洞察を提供する。

関連論文リスト

Affordable AI Assistants with Knowledge Graph of Thoughts [15.045446816762675]
大規模言語モデル(LLM)は、ドメイン間で多様なタスクを実行できるAIアシスタントの開発に革命をもたらしている。我々は、LLM推論と動的に構築された知識グラフ(KGs)を統合する革新的なAIアシスタントアーキテクチャであるKGoT(Knowledge Graph of Thoughts)を提案する。 KGoTはGAIAベンチマークのタスク成功率をGPT-4o miniのHugging Face Agentsと比較して29%改善し、GPT-4oのコストを36倍以上削減した。
論文参考訳（メタデータ） (2025-04-03T15:11:55Z)
ChatGPT vs. DeepSeek: A Comparative Study on AI-Based Code Generation [0.0]
本研究は,オンラインジャッジコーディング課題を用いたPythonコード生成におけるChatGPTとDeepSeekを比較した。正確性(オンライン判断、最大3回の試み)、コード品質(Pylint/Flake8)、効率性(実行時間/メモリ使用率)を評価する。 DeepSeekは、特にアルゴリズム的なタスクにおいて、最初の試みで「受け入れ」されることが多い高い正確性を示した。
論文参考訳（メタデータ） (2025-01-30T16:14:48Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Guiding Through Complexity: What Makes Good Supervision for Hard Math Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-27T17:55:27Z)
Benchmarking ChatGPT, Codeium, and GitHub Copilot: A Comparative Study of AI-Driven Programming and Debugging Assistants [0.0]
コード生成やバグ修正、最適化といったタスクには、大きな言語モデル(LLM)が不可欠になっています。本稿では、ChatGPT、Codeium、GitHub Copilotの比較研究を行い、LeetCode問題におけるパフォーマンスを評価する。
論文参考訳（メタデータ） (2024-09-30T03:53:40Z)
SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文参考訳（メタデータ） (2024-09-11T17:37:48Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Rocks Coding, Not Development--A Human-Centric, Experimental Evaluation of LLM-Supported SE Tasks [9.455579863269714]
コーディングタスクやソフトウェア開発の典型的なタスクにおいて,ChatGPTがどの程度役に立つかを検討した。単純なコーディング問題ではChatGPTはうまく機能していましたが、典型的なソフトウェア開発タスクをサポートするパフォーマンスはそれほど良くありませんでした。そこで本研究では,ChatGPTを用いたソフトウェアエンジニアリングタスクを現実の開発者に提供する。
論文参考訳（メタデータ） (2024-02-08T13:07:31Z)
Evaluating GPT's Programming Capability through CodeWars' Katas [0.5512295869673147]
本稿では,GPT(Generative Pretrained Transformer)モデルのプログラミング能力の新たな評価法を提案する。実験では、これらのGPTモデルがソリューション提供に苦しむ3休レベルでの明確な境界を明らかにした。この研究は、人間の問題解決技術をうまくエミュレートするために、AIモデルにおけるバリデーションと創造的な思考能力の必要性を強調している。
論文参考訳（メタデータ） (2023-05-31T10:36:16Z)
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them [108.54545521369688]
我々は,BIG-Bench Hard (BBH) と呼ばれる,BIG-Benchタスクに挑戦する23のスイートに焦点を当てる。 BBHタスクへのチェーン・オブ・シント(CoT)の適用により、PaLMは23タスクのうち10タスクにおいて平均的な人間レータ性能を上回り、Codexは23タスクのうち17タスクにおいて平均的な人間レータ性能を上回ります。
論文参考訳（メタデータ） (2022-10-17T17:08:26Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。