Fugu-MT 論文翻訳(概要): A Comparative Analysis of Large Language Models for Code Documentation Generation

論文の概要: A Comparative Analysis of Large Language Models for Code Documentation Generation

arxiv url: http://arxiv.org/abs/2312.10349v1
Date: Sat, 16 Dec 2023 06:40:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 17:02:55.751152
Title: A Comparative Analysis of Large Language Models for Code Documentation Generation
Title（参考訳）: コード文書生成のための大規模言語モデルの比較分析
Authors: Shubhang Shekhar Dvivedi, Vyshnav Vijay, Sai Leela Rahul Pujari, Shoumik Lodh, Dhruv Kumar
Abstract要約: 本論文は, GPT-3.5, GPT-4, Bard, Llama2, Starchat などのモデルについて, 精度, 完全性, 妥当性, 可読性, 可読性, タイムテイクなどのパラメータについて検討した。
参考スコア（独自算出の注目度）: 2.0686733932673604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a comprehensive comparative analysis of Large Language Models (LLMs) for generation of code documentation. Code documentation is an essential part of the software writing process. The paper evaluates models such as GPT-3.5, GPT-4, Bard, Llama2, and Starchat on various parameters like Accuracy, Completeness, Relevance, Understandability, Readability and Time Taken for different levels of code documentation. Our evaluation employs a checklist-based system to minimize subjectivity, providing a more objective assessment. We find that, barring Starchat, all LLMs consistently outperform the original documentation. Notably, closed-source models GPT-3.5, GPT-4, and Bard exhibit superior performance across various parameters compared to open-source/source-available LLMs, namely LLama 2 and StarChat. Considering the time taken for generation, GPT-4 demonstrated the longest duration, followed by Llama2, Bard, with ChatGPT and Starchat having comparable generation times. Additionally, file level documentation had a considerably worse performance across all parameters (except for time taken) as compared to inline and function level documentation.
Abstract（参考訳）: 本稿では,コード文書生成のための大規模言語モデル(llms)の包括的比較分析を行う。コードドキュメンテーションは、ソフトウェア記述プロセスにおいて不可欠な部分です。 GPT-3.5、GPT-4、Bard、Llama2、Starchatといったモデルに対して、さまざまなレベルのコードドキュメンテーションに対して、正確性、完全性、妥当性、理解可能性、可読性、時間といったさまざまなパラメータについて評価する。本評価は主観性を最小限に抑えるためにチェックリストベースのシステムを採用し,より客観的な評価を行っている。 starchatを除いて、すべてのllmがオリジナルのドキュメントを一貫して上回っていることが分かりました。特に、GPT-3.5、GPT-4、BardはオープンソースのLLM、すなわちLLama 2とStarChatと比較して、様々なパラメータで優れた性能を示す。生成に要する時間を考えると、GPT-4は最長持続時間を示し、続いてLlama2、Bard、ChatGPT、Starchatが同世代である。さらに、ファイルレベルのドキュメンテーションは、インラインや関数レベルのドキュメンテーションに比べて、すべてのパラメータ(時間を除いて)でかなりパフォーマンスが悪くなりました。

関連論文リスト

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? [16.717935491483146]
Double-Benchは、大規模、多言語、マルチモーダル評価システムである。ドキュメントRAGシステム内の各コンポーネントに対してきめ細かい評価を行う。 3,276のドキュメント(72,880ページ)と6言語で5,168のシングルホップクエリで構成されている。
論文参考訳（メタデータ） (2025-08-05T16:55:02Z)
Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文参考訳（メタデータ） (2025-07-31T03:14:45Z)
GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries [0.7905066238005297]
大規模言語モデル(LLM)は、科学研究におけるコード生成を自動化するツールとして急速に進歩してきた。本研究では,2つの難易度の高いシナリオに対して,関数型Pythonコードを生成する上で,最先端のLLMの選択を体系的にベンチマークする。
論文参考訳（メタデータ） (2025-07-30T13:11:29Z)
Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Comparative Analysis of Large Language Models for Context-Aware Code Completion using SAFIM Framework [5.312946761836463]
大規模言語モデル(LLM)はコード補完に革命をもたらし、よりインテリジェントでコンテキスト対応な機能へと変貌を遂げた。本稿では,Gemini 1.5 Flash, Gemini 1.5 Pro, GPT-4o, GPT-4o-mini, GPT-4 Turboなど,チャットベースのLLMの性能を評価する。
論文参考訳（メタデータ） (2025-02-21T06:32:31Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。 HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文参考訳（メタデータ） (2024-09-24T15:38:11Z)
DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文参考訳（メタデータ） (2024-07-15T13:17:42Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文参考訳（メタデータ） (2024-06-21T17:37:10Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。我々は人的・自動的な評価のためのプロトコルを開発した。以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文参考訳（メタデータ） (2024-04-11T13:11:21Z)
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models [7.428236410246183]
われわれはContraDocを紹介した。ContraDocは、複数のドメインにまたがる長いドキュメントにおける自己コントラクションを研究する最初の人間アノテーション付きデータセットである。我々は,このデータセット上でGPT3.5, GPT4, PaLM2, LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。 GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労していることが分かりました。
論文参考訳（メタデータ） (2023-11-15T18:23:17Z)
Hybrid Long Document Summarization using C2F-FAR and ChatGPT: A Practical Study [1.933681537640272]
ChatGPTは、大規模言語モデル(LLM)分野における最新のブレークスルーである。本稿では,ビジネス記事や書籍などの長い文書のハイブリッド抽出と要約パイプラインを提案する。以上の結果から,ChatGPTの使用は長文を要約するための非常に有望なアプローチであるが,まだ成熟していないことが示唆された。
論文参考訳（メタデータ） (2023-06-01T21:58:33Z)
Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文参考訳（メタデータ） (2023-05-24T01:53:49Z)
Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文参考訳（メタデータ） (2023-04-05T03:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。