論文の概要: Automatic Code Summarization via ChatGPT: How Far Are We?
- arxiv url: http://arxiv.org/abs/2305.12865v1
- Date: Mon, 22 May 2023 09:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:59:26.276143
- Title: Automatic Code Summarization via ChatGPT: How Far Are We?
- Title(参考訳): chatgptによる自動コード要約: どこまであるのか?
- Authors: Weisong Sun, Chunrong Fang, Yudu You, Yun Miao, Yi Liu, Yuekang Li,
Gelei Deng, Shenghan Huang, Yuchen Chen, Quanjun Zhang, Hanwei Qian, Yang
Liu, Zhenyu Chen
- Abstract要約: CSN-Pythonと呼ばれる広く使われているPythonデータセット上でChatGPTを評価する。
BLEUとROUGE-Lでは、ChatGPTのコード要約性能は3つのSOTAモデルと比べて著しく劣っている。
この結果に基づき、ChatGPTベースのコード要約におけるいくつかのオープンな課題と機会を概説する。
- 参考スコア(独自算出の注目度): 10.692654700225411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To support software developers in understanding and maintaining programs,
various automatic code summarization techniques have been proposed to generate
a concise natural language comment for a given code snippet. Recently, the
emergence of large language models (LLMs) has led to a great boost in the
performance of natural language processing tasks. Among them, ChatGPT is the
most popular one which has attracted wide attention from the software
engineering community. However, it still remains unclear how ChatGPT performs
in (automatic) code summarization. Therefore, in this paper, we focus on
evaluating ChatGPT on a widely-used Python dataset called CSN-Python and
comparing it with several state-of-the-art (SOTA) code summarization models.
Specifically, we first explore an appropriate prompt to guide ChatGPT to
generate in-distribution comments. Then, we use such a prompt to ask ChatGPT to
generate comments for all code snippets in the CSN-Python test set. We adopt
three widely-used metrics (including BLEU, METEOR, and ROUGE-L) to measure the
quality of the comments generated by ChatGPT and SOTA models (including NCS,
CodeBERT, and CodeT5). The experimental results show that in terms of BLEU and
ROUGE-L, ChatGPT's code summarization performance is significantly worse than
all three SOTA models. We also present some cases and discuss the advantages
and disadvantages of ChatGPT in code summarization. Based on the findings, we
outline several open challenges and opportunities in ChatGPT-based code
summarization.
- Abstract(参考訳): プログラムの理解と保守を支援するため、与えられたコードスニペットに対して簡潔な自然言語コメントを生成するために、様々な自動コード要約技術が提案されている。
近年,大規模言語モデル(LLM)の出現により,自然言語処理タスクの性能が大幅に向上している。
中でもchatgptは,ソフトウェアエンジニアリングコミュニティから広く注目を集めている,最も人気のあるツールです。
しかし、ChatGPTが(自動)コード要約でどのように機能するかはまだ不明である。
そこで本稿では,ChatGPTをCSN-Pythonと呼ばれる広く使われているPythonデータセットで評価し,いくつかの最先端(SOTA)コード要約モデルと比較する。
具体的には、まずChatGPTを誘導して配信内コメントを生成するための適切なプロンプトを探索する。
次に、このようなプロンプトを使用して、ChatGPTにCSN-Pythonテストセットのすべてのコードスニペットに対するコメントを生成する。
我々は、ChatGPTモデルとSOTAモデル(NAS、CodeBERT、CodeT5を含む)が生成するコメントの品質を測定するために、広く使われている3つの指標(BLEU、METEOR、ROUGE-L)を採用する。
実験結果から, BLEU と ROUGE-L の観点からは, ChatGPT のコード要約性能は3つの SOTA モデルと比較して著しく劣っていることがわかった。
また、コード要約におけるChatGPTの利点と欠点についても論じる。
この結果に基づき、ChatGPTベースのコード要約におけるいくつかのオープンな課題と機会を概説する。
関連論文リスト
- Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Chatbots Are Not Reliable Text Annotators [0.0]
ChatGPTはクローズドソース製品で、透明性、コスト、データ保護に関して大きな欠点があります。
オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。
論文 参考訳(メタデータ) (2023-11-09T22:28:14Z) - Exploring the Potential of ChatGPT in Automated Code Refinement: An
Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。
コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。
その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文 参考訳(メタデータ) (2023-09-15T07:41:33Z) - Unmasking the giant: A comprehensive evaluation of ChatGPT's proficiency in coding algorithms and data structures [0.6990493129893112]
本稿では,ChatGPTが入力した問題に対する正しい解を生成する能力,コード品質,コードによってスローされる実行時エラーの性質を評価する。
この種の状況において、ChatGPTコードがいかに間違っているか、いくつかの洞察を得るために、パスされたテストケースのパターンを調べます。
論文 参考訳(メタデータ) (2023-07-10T08:20:34Z) - Is ChatGPT the Ultimate Programming Assistant -- How far is it? [11.943927095071105]
ChatGPTは非常に注目されており、ソースコードを議論するためのボットとして使用できる。
完全自動プログラミングアシスタントとしてのChatGPTの可能性について実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-24T09:20:13Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。