論文の概要: DocuMint: Docstring Generation for Python using Small Language Models
- arxiv url: http://arxiv.org/abs/2405.10243v1
- Date: Thu, 16 May 2024 16:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:43:00.172847
- Title: DocuMint: Docstring Generation for Python using Small Language Models
- Title(参考訳): DocuMint: 小型言語モデルを用いたPythonのドキュメント生成
- Authors: Bibek Poudel, Adam Cook, Sekou Traore, Shelah Ameli,
- Abstract要約: 本研究では,高品質なドクストリング生成のための小型言語モデル(SLM)の有効性について検討した。
定量的実験では、Llama 3 8Bは全ての測定値で最高の性能を達成し、簡潔さと明度はそれぞれ0.605と64.88であった。
人間の評価では、CodeGemma 7Bはすべての指標で平均8.3のスコアで最高となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective communication, specifically through documentation, is the beating heart of collaboration among contributors in software development. Recent advancements in language models (LMs) have enabled the introduction of a new type of actor in that ecosystem: LM-powered assistants capable of code generation, optimization, and maintenance. Our study investigates the efficacy of small language models (SLMs) for generating high-quality docstrings by assessing accuracy, conciseness, and clarity, benchmarking performance quantitatively through mathematical formulas and qualitatively through human evaluation using Likert scale. Further, we introduce DocuMint, as a large-scale supervised fine-tuning dataset with 100,000 samples. In quantitative experiments, Llama 3 8B achieved the best performance across all metrics, with conciseness and clarity scores of 0.605 and 64.88, respectively. However, under human evaluation, CodeGemma 7B achieved the highest overall score with an average of 8.3 out of 10 across all metrics. Fine-tuning the CodeGemma 2B model using the DocuMint dataset led to significant improvements in performance across all metrics, with gains of up to 22.5% in conciseness. The fine-tuned model and the dataset can be found in HuggingFace and the code can be found in the repository.
- Abstract(参考訳): 効果的なコミュニケーションは、特にドキュメントを通じて、ソフトウェア開発におけるコントリビュータ間のコラボレーションの心臓部となる。
言語モデル(LM)の最近の進歩により、そのエコシステムに新しいタイプのアクターが導入された。
本研究は, 精度, 簡潔さ, 明度を評価し, 数学式による定量的な評価と, 人間の評価による定性的な評価により, 高品質なドクストリングを生成するための小型言語モデル(SLM)の有効性について検討した。
さらに、大規模な教師付き微調整データセットであるDocuMintを10万のサンプルで紹介する。
定量的実験では、Llama 3 8Bは全ての測定値で最高の性能を達成し、簡潔さと明度はそれぞれ0.605と64.88であった。
しかし、人間による評価では、CodeGemma 7Bは全指標中10点中8.3点のスコアで最高となった。
DocuMintデータセットを使用したCodeGemma 2Bモデルの微調整により、すべてのメトリクスのパフォーマンスが大幅に改善され、精度は最大22.5%向上した。
微調整されたモデルとデータセットはHuggingFaceで見ることができ、コードはリポジトリで見ることができます。
関連論文リスト
- Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクのゴーツーソリューションとなっている。
我々はPythonコードを生成する際の長所と短所を半マニュアルで評価する。
評価目的の難易度が異なる60のプログラミング問題のデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-17T08:16:48Z) - BooleanOCT: Optimal Classification Trees based on multivariate Boolean
Rules [14.788278997556606]
最適な分類木を導出するために,MIP(Mixed-integer Programming)の定式化を導入する。
提案手法は,F1スコアなどの非線形指標と同様に,精度,バランスの取れた精度,コストに敏感なコストを含む線形メトリクスを統合する。
提案したモデルでは,実世界のデータセットに対して現実的な可解性を示し,数万のサイズの処理を効果的に行う。
論文 参考訳(メタデータ) (2024-01-29T12:58:44Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Instruction Mining: When Data Mining Meets Large Language Model
Finetuning [20.077359677828426]
InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。
InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-07-12T16:37:31Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。