Fugu-MT 論文翻訳(概要): Comparing large language models and human programmers for generating programming code

論文の概要: Comparing large language models and human programmers for generating programming code

arxiv url: http://arxiv.org/abs/2403.00894v2
Date: Sat, 05 Oct 2024 00:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 02:15:42.483864
Title: Comparing large language models and human programmers for generating programming code
Title（参考訳）: プログラムコード生成のための大規模言語モデルとヒューマンプログラマの比較
Authors: Wenpin Hou, Zhicheng Ji,
Abstract要約: GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We systematically evaluated the performance of seven large language models in generating programming code using various prompt strategies, programming languages, and task difficulties. GPT-4 substantially outperforms other large language models, including Gemini Ultra and Claude 2. The coding performance of GPT-4 varies considerably with different prompt strategies. In most LeetCode and GeeksforGeeks coding contests evaluated in this study, GPT-4 employing the optimal prompt strategy outperforms 85 percent of human participants. Additionally, GPT-4 demonstrates strong capabilities in translating code between different programming languages and in learning from past errors. The computational efficiency of the code generated by GPT-4 is comparable to that of human programmers. These results suggest that GPT-4 has the potential to serve as a reliable assistant in programming code generation and software development.
Abstract（参考訳）: 我々は,プログラム生成における7つの大規模言語モデルの性能を,様々なプロンプト戦略,プログラム言語,タスク難易度を用いて体系的に評価した。 GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。 GPT-4の符号化性能は、異なるプロンプト戦略で大きく異なる。この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。さらに、GPT-4は、異なるプログラミング言語間のコード翻訳や過去のエラーからの学習において、強力な機能を示している。 GPT-4で生成されたコードの計算効率は、人間のプログラマに匹敵する。これらの結果から,GPT-4はプログラミングコード生成やソフトウェア開発において,信頼性の高いアシスタントとして機能する可能性が示唆された。

関連論文リスト

Comparing Human and LLM Generated Code: The Jury is Still Out! [8.456554883523472]
大規模言語モデル(LLM)と人間プログラマによるPythonのソフトウェアコード作成の有効性を比較した。 Pylint、Radon、Bandit、テストケースなど、さまざまな静的分析ベンチマークを使用しています。我々は、人間とGPT-4の両方が生成したコードのセキュリティ欠陥を観察するが、GPT-4コードはより深刻な外れ値を含んでいた。
論文参考訳（メタデータ） (2025-01-28T11:11:36Z)
A case study on the transformative potential of AI in software engineering on LeetCode and ChatGPT [0.0]
本研究は,LeetCode ユーザによる Python プログラムのソフトウェア品質と GPT-4o によるソフトウェア品質を比較し,方法論的アプローチを採用する。この結果から, GPT-4oはコード品質, 可理解性, 実行時において, 限られたスケールでコードを生成する場合に, かなりの障害を生じさせないことが示唆された。
論文参考訳（メタデータ） (2025-01-07T09:15:25Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
Evaluating the Application of Large Language Models to Generate Feedback in Programming Education [0.0]
本研究では,大規模言語モデル,特にGPT-4のプログラミング教育への応用について検討する。本研究は, GPT-4 を用いてプログラミングタスクに対するフィードバックを提供する Web アプリケーションの設計について概説する。
論文参考訳（メタデータ） (2024-03-13T23:14:35Z)
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文参考訳（メタデータ） (2024-02-22T16:06:23Z)
Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2024-01-10T18:37:59Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
OpenAi's GPT4 as coding assistant [0.0]
GPT4はOpenaiから最も強力な大規模言語モデルと見なされている。本稿では,コーディングアシスタントとしてのGPT3.5とGPT4について検討する。
論文参考訳（メタデータ） (2023-09-22T09:31:39Z)
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文参考訳（メタデータ） (2023-06-29T17:57:40Z)
Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文参考訳（メタデータ） (2023-06-15T22:12:34Z)
Generalized Planning in PDDL Domains with Pretrained Large Language Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。 7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文参考訳（メタデータ） (2023-05-18T14:48:20Z)
AI-assisted coding: Experiments with GPT-4 [0.22366638308792727]
GPT-4は、かなりのカバレッジでテストを生成することができるが、ほとんどのテストは関連するコードに適用されない。これらの結果は、AIコーディングツールは非常に強力であるが、結果の妥当性と正確性を保証するためには、まだ人間を必要とすることを示唆している。
論文参考訳（メタデータ） (2023-04-25T22:59:01Z)
Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文参考訳（メタデータ） (2023-04-17T17:59:25Z)
GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文参考訳（メタデータ） (2023-03-15T17:15:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。