論文の概要: Automatic Pull Request Description Generation Using LLMs: A T5 Model Approach
- arxiv url: http://arxiv.org/abs/2408.00921v1
- Date: Thu, 1 Aug 2024 21:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:56:17.921862
- Title: Automatic Pull Request Description Generation Using LLMs: A T5 Model Approach
- Title(参考訳): LLMを用いた自動プルリクエスト記述生成:T5モデルアプローチ
- Authors: Md Nazmus Sakib, Md Athikul Islam, Md Mashrur Arifin,
- Abstract要約: 本稿では,コミットメッセージとソースコードコメントに基づくPR記述の自動生成手法を提案する。
我々は,33,466個のPRを含むデータセットを用いて,事前学習したT5モデルを微調整した。
以上の結果から,T5モデルはLexRankより有意に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers create pull request (PR) descriptions to provide an overview of their changes and explain the motivations behind them. These descriptions help reviewers and fellow developers quickly understand the updates. Despite their importance, some developers omit these descriptions. To tackle this problem, we propose an automated method for generating PR descriptions based on commit messages and source code comments. This method frames the task as a text summarization problem, for which we utilized the T5 text-to-text transfer model. We fine-tuned a pre-trained T5 model using a dataset containing 33,466 PRs. The model's effectiveness was assessed using ROUGE metrics, which are recognized for their strong alignment with human evaluations. Our findings reveal that the T5 model significantly outperforms LexRank, which served as our baseline for comparison.
- Abstract(参考訳): 開発者はプルリクエスト(PR)記述を作成して、変更の概要と、その背景にあるモチベーションを説明する。
これらの説明は、レビュアーや同僚の開発者がアップデートを素早く理解するのに役立ちます。
その重要性にもかかわらず、一部の開発者はこれらの記述を省略している。
そこで本研究では,コミットメッセージとソースコードコメントに基づくPR記述の自動生成手法を提案する。
本手法は,T5テキスト-テキスト間転送モデルを用いて,タスクをテキスト要約問題としてフレーム化する。
我々は,33,466個のPRを含むデータセットを用いて,事前学習したT5モデルを微調整した。
このモデルの有効性をROUGEメトリクスを用いて評価した。
以上の結果から,T5モデルはLexRankより有意に優れており,LexRankは我々のベースラインとして機能していることがわかった。
関連論文リスト
- Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Compositional Generalization for Data-to-Text Generation [86.79706513098104]
本稿では,群に述語をクラスタ化することで構成一般化に対処する新しいモデルを提案する。
本モデルでは,1つの述語を1度に1つのクラスタに依存して文単位でテキストを生成する。
すべての評価指標でT5ベースラインをはるかに上回る。
論文 参考訳(メタデータ) (2023-12-05T13:23:15Z) - Revisiting Relation Extraction in the era of Large Language Models [24.33660998599006]
関係抽出(RE)は、テキストからエンティティ間の意味的関係を推測する中核的なNLPタスクである。
近年の研究では、入力に条件付きで生成するターゲット文字列としてエンティティ間の関係を線形化することで、その問題を列列化タスクとして扱っている。
ここでは、従来の作業よりも大きい言語モデル(GPT-3とFlan-T5)を用いて、標準的なREタスクの性能を様々なレベルの監督下で評価し、このアプローチの限界を推し進める。
論文 参考訳(メタデータ) (2023-05-08T19:19:07Z) - ExaRanker: Explanation-Augmented Neural Ranker [67.4894325619275]
本研究は,ニューラルランサーが説明の恩恵を受けることを示す。
我々は、GPT-3.5のようなLCMを用いて、説明付き検索データセットを増強する。
ExaRankerと呼ばれる私たちのモデルは、数千の例で微調整され、合成説明は、説明なしで3倍の例で微調整されたモデルと同等に実行される。
論文 参考訳(メタデータ) (2023-01-25T11:03:04Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - Civil Rephrases Of Toxic Texts With Self-Supervised Transformers [4.615338063719135]
この研究は、より市民的な方法で有毒なコメントを言い換えるのに役立つモデルに焦点を当てている。
CAE-T5と呼ばれる自己監督型学習モデルが導入されました。
論文 参考訳(メタデータ) (2021-02-01T15:27:52Z) - Leveraging ParsBERT and Pretrained mT5 for Persian Abstractive Text
Summarization [1.0742675209112622]
本稿では,ペルシャ抽象テキスト要約のための新しいデータセットpn-summaryについて紹介する。
本論文で用いるモデルはmT5とParsBERTモデルのエンコーダデコーダ版である。
論文 参考訳(メタデータ) (2020-12-21T09:35:52Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。