論文の概要: A Comparative Analysis of Large Language Models for Code Documentation
Generation
- arxiv url: http://arxiv.org/abs/2312.10349v1
- Date: Sat, 16 Dec 2023 06:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:02:55.751152
- Title: A Comparative Analysis of Large Language Models for Code Documentation
Generation
- Title(参考訳): コード文書生成のための大規模言語モデルの比較分析
- Authors: Shubhang Shekhar Dvivedi, Vyshnav Vijay, Sai Leela Rahul Pujari,
Shoumik Lodh, Dhruv Kumar
- Abstract要約: 本論文は, GPT-3.5, GPT-4, Bard, Llama2, Starchat などのモデルについて, 精度, 完全性, 妥当性, 可読性, 可読性, タイムテイクなどのパラメータについて検討した。
- 参考スコア(独自算出の注目度): 2.0686733932673604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a comprehensive comparative analysis of Large Language
Models (LLMs) for generation of code documentation. Code documentation is an
essential part of the software writing process. The paper evaluates models such
as GPT-3.5, GPT-4, Bard, Llama2, and Starchat on various parameters like
Accuracy, Completeness, Relevance, Understandability, Readability and Time
Taken for different levels of code documentation. Our evaluation employs a
checklist-based system to minimize subjectivity, providing a more objective
assessment. We find that, barring Starchat, all LLMs consistently outperform
the original documentation. Notably, closed-source models GPT-3.5, GPT-4, and
Bard exhibit superior performance across various parameters compared to
open-source/source-available LLMs, namely LLama 2 and StarChat. Considering the
time taken for generation, GPT-4 demonstrated the longest duration, followed by
Llama2, Bard, with ChatGPT and Starchat having comparable generation times.
Additionally, file level documentation had a considerably worse performance
across all parameters (except for time taken) as compared to inline and
function level documentation.
- Abstract(参考訳): 本稿では,コード文書生成のための大規模言語モデル(llms)の包括的比較分析を行う。
コードドキュメンテーションは、ソフトウェア記述プロセスにおいて不可欠な部分です。
GPT-3.5、GPT-4、Bard、Llama2、Starchatといったモデルに対して、さまざまなレベルのコードドキュメンテーションに対して、正確性、完全性、妥当性、理解可能性、可読性、時間といったさまざまなパラメータについて評価する。
本評価は主観性を最小限に抑えるためにチェックリストベースのシステムを採用し,より客観的な評価を行っている。
starchatを除いて、すべてのllmがオリジナルのドキュメントを一貫して上回っていることが分かりました。
特に、GPT-3.5、GPT-4、BardはオープンソースのLLM、すなわちLLama 2とStarChatと比較して、様々なパラメータで優れた性能を示す。
生成に要する時間を考えると、GPT-4は最長持続時間を示し、続いてLlama2、Bard、ChatGPT、Starchatが同世代である。
さらに、ファイルレベルのドキュメンテーションは、インラインや関数レベルのドキュメンテーションに比べて、すべてのパラメータ(時間を除いて)でかなりパフォーマンスが悪くなりました。
関連論文リスト
- Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。
我々は人的・自動的な評価のためのプロトコルを開発した。
以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文 参考訳(メタデータ) (2024-04-11T13:11:21Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models [7.428236410246183]
われわれはContraDocを紹介した。ContraDocは、複数のドメインにまたがる長いドキュメントにおける自己コントラクションを研究する最初の人間アノテーション付きデータセットである。
我々は,このデータセット上でGPT3.5, GPT4, PaLM2, LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。
GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労していることが分かりました。
論文 参考訳(メタデータ) (2023-11-15T18:23:17Z) - Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A
Practical Study [1.933681537640272]
ChatGPTは、大規模言語モデル(LLM)分野における最新のブレークスルーである。
本稿では,ビジネス記事や書籍などの長い文書のハイブリッド抽出と要約パイプラインを提案する。
以上の結果から,ChatGPTの使用は長文を要約するための非常に有望なアプローチであるが,まだ成熟していないことが示唆された。
論文 参考訳(メタデータ) (2023-06-01T21:58:33Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - PEARL: Prompting Large Language Models to Plan and Execute Actions Over
Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。
PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。
PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文 参考訳(メタデータ) (2023-05-23T23:06:04Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。