論文の概要: KADEL: Knowledge-Aware Denoising Learning for Commit Message Generation
- arxiv url: http://arxiv.org/abs/2401.08376v1
- Date: Tue, 16 Jan 2024 14:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 13:45:40.798983
- Title: KADEL: Knowledge-Aware Denoising Learning for Commit Message Generation
- Title(参考訳): KADEL: コミットメッセージ生成のための知識認識Denoising Learning
- Authors: Wei Tao, Yucheng Zhou, Yanlin Wang, Hongyu Zhang, Haofen Wang,
Wenqiang Zhang
- Abstract要約: そこで我々は,KADELという新しい知識認識型認知学習手法を提案する。
良い実践的なコミットがデータセットのごく一部を占めることを考えると、残りのトレーニングサンプルと良い実践的なコミットを一致させます。
本手法は,従来の手法と比較して総合的な最先端性能を実現する。
- 参考スコア(独自算出の注目度): 43.8807366757381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commit messages are natural language descriptions of code changes, which are
important for software evolution such as code understanding and maintenance.
However, previous methods are trained on the entire dataset without considering
the fact that a portion of commit messages adhere to good practice (i.e.,
good-practice commits), while the rest do not. On the basis of our empirical
study, we discover that training on good-practice commits significantly
contributes to the commit message generation. Motivated by this finding, we
propose a novel knowledge-aware denoising learning method called KADEL.
Considering that good-practice commits constitute only a small proportion of
the dataset, we align the remaining training samples with these good-practice
commits. To achieve this, we propose a model that learns the commit knowledge
by training on good-practice commits. This knowledge model enables
supplementing more information for training samples that do not conform to good
practice. However, since the supplementary information may contain noise or
prediction errors, we propose a dynamic denoising training method. This method
composes a distribution-aware confidence function and a dynamic distribution
list, which enhances the effectiveness of the training process. Experimental
results on the whole MCMD dataset demonstrate that our method overall achieves
state-of-the-art performance compared with previous methods. Our source code
and data are available at https://github.com/DeepSoftwareAnalytics/KADEL
- Abstract(参考訳): コミットメッセージは、コード変更の自然言語記述であり、コードの理解やメンテナンスといったソフトウェア進化にとって重要である。
しかしながら、以前のメソッドは、コミットメッセージの一部が良いプラクティス(つまり、良い実践的なコミット)に準拠しているという事実を考慮せずに、データセット全体をトレーニングする。
実証研究に基づいて,善行的コミットの訓練がコミットメッセージ生成に大きく貢献することを発見した。
そこで本研究では,KADELと呼ばれる新しい知識認識学習手法を提案する。
good-practiceコミットがデータセットのごく一部を占めることを考慮すると、残りのトレーニングサンプルはこれらのgood-practiceコミットと一致します。
そこで本研究では,良質なコミットを訓練することで,コミット知識を学習するモデルを提案する。
この知識モデルは、良い実践に適合しないトレーニングサンプルのために、より多くの情報を補うことができる。
しかし, 補足情報にはノイズや予測誤差が含まれているため, 動的 denoising training 法を提案する。
本手法は、トレーニングプロセスの有効性を高めるために、分布認識信頼関数と動的分布リストを構成する。
MCMDデータセット全体の実験結果から,本手法は従来手法と比較して総合的に最先端性能を実現することが示された。
ソースコードとデータはhttps://github.com/deepsoftwareanalytics/kadelで入手できます。
関連論文リスト
- EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Learning Representations for New Sound Classes With Continual
Self-Supervised Learning [30.35061954854764]
本稿では,新しい音響クラスのための表現を継続的に学習するための自己教師型学習フレームワークを提案する。
提案手法を用いて学習した表現は,より一般化され,破滅的な忘れ込みに対する感受性が低いことを示す。
論文 参考訳(メタデータ) (2022-05-15T22:15:21Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Coded Machine Unlearning [34.08435990347253]
学習フェーズの前にデータセットを線形に符号化する符号化学習プロトコルを提案する。
また, 符号化学習モデルのアンラーニングプロトコルについて述べるとともに, 完全なアンラーニングを実現するための提案プロトコルの成功について考察する。
論文 参考訳(メタデータ) (2020-12-31T17:20:34Z) - Teaching with Commentaries [108.62722733649542]
コメントとメタ情報を用いたフレキシブルな教育フレームワークを提案する。
解説はトレーニングのスピードと/またはパフォーマンスを改善することができる。
パフォーマンスのメリットを得るために、新しいモデルをトレーニングするときに、コメンタリを再利用できる。
論文 参考訳(メタデータ) (2020-11-05T18:52:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。