論文の概要: Can ChatGPT Support Developers? An Empirical Evaluation of Large
Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2402.11702v1
- Date: Sun, 18 Feb 2024 20:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 19:34:51.020003
- Title: Can ChatGPT Support Developers? An Empirical Evaluation of Large
Language Models for Code Generation
- Title(参考訳): ChatGPTは開発者をサポートできるか?
コード生成のための大規模言語モデルの実証評価
- Authors: Kailun Jin, Chung-Yu Wang, Hung Viet Pham, Hadi Hemmati
- Abstract要約: 開発者によるChatGPTとの会話から収集したデータセットであるDevGPTにおける会話の実証分析を行った。
この結果から,LLM生成コードを使用する現在の実践は,高レベルな概念を示すか,ドキュメントに例を示すかのどちらかに制限されていることが示唆された。
- 参考スコア(独自算出の注目度): 3.204337275008157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated notable proficiency in code
generation, with numerous prior studies showing their promising capabilities in
various development scenarios. However, these studies mainly provide
evaluations in research settings, which leaves a significant gap in
understanding how effectively LLMs can support developers in real-world. To
address this, we conducted an empirical analysis of conversations in DevGPT, a
dataset collected from developers' conversations with ChatGPT (captured with
the Share Link feature on platforms such as GitHub). Our empirical findings
indicate that the current practice of using LLM-generated code is typically
limited to either demonstrating high-level concepts or providing examples in
documentation, rather than to be used as production-ready code. These findings
indicate that there is much future work needed to improve LLMs in code
generation before they can be integral parts of modern software development.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な開発シナリオで有望な能力を示す多くの先行研究とともに、コード生成において顕著な熟練度を示している。
しかし、これらの研究は主に研究環境での評価を提供しており、LLMが現実世界の開発者をいかに効果的に支援できるかを理解するための大きなギャップを残している。
これを解決するために、私たちは、開発者とChatGPT(GitHubなどのプラットフォーム上のShare Link機能でキャプチャされた)の会話から収集されたデータセットであるDevGPTで会話を経験的に分析しました。
私たちの経験から,LLM生成コードを使用する現在のプラクティスは,一般的には,高レベルな概念のデモやドキュメントの例の提供に限られています。
これらの結果は、現代のソフトウェア開発において不可欠な部分になる前に、コード生成におけるLLMを改善するには、将来的な作業が必要であることを示している。
関連論文リスト
- DevBench: A Comprehensive Benchmark for Software Development [73.62247555595042]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Enhancing LLM-Based Coding Tools through Native Integration of
IDE-Derived Static Context [41.91246546266515]
我々は,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できると主張している。
本稿では,IDEネイティブな静的コンテキストをクロスコンテキスト構築に利用し,自己再定義のための診断結果を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-06T01:59:41Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating In-Context Learning of Libraries for Code Generation [38.86753078870638]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Analysis of ChatGPT on Source Code [1.3381749415517021]
本稿では,大規模言語モデル(LLM),特にプログラミング,ソースコード解析,コード生成におけるChatGPTの利用について検討する。
LLMとChatGPTは機械学習と人工知能の技術を使って構築されており、開発者とプログラマにいくつかの利点を提供している。
論文 参考訳(メタデータ) (2023-06-01T12:12:59Z) - Large Language Models are Few-Shot Summarizers: Multi-Intent Comment
Generation via In-Context Learning [34.006227676170504]
本研究では,大規模言語モデル(LLM)を用いて,開発者の多様な意図を満たすコメントを生成することの実現可能性について検討する。
2つの大規模なデータセットの実験は、私たちの洞察の理論的根拠を示しています。
論文 参考訳(メタデータ) (2023-04-22T12:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。