論文の概要: Boosting Commit Classification with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2308.08263v1
- Date: Wed, 16 Aug 2023 10:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:10:21.691442
- Title: Boosting Commit Classification with Contrastive Learning
- Title(参考訳): コントラスト学習によるコミット分類の促進
- Authors: Jiajun Tong, Zhixiao Wang and Xiaobin Rui
- Abstract要約: コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。
対照的な学習に基づくコミット分類フレームワークを提案する。
われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
- 参考スコア(独自算出の注目度): 0.8655526882770742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commit Classification (CC) is an important task in software maintenance,
which helps software developers classify code changes into different types
according to their nature and purpose. It allows developers to understand
better how their development efforts are progressing, identify areas where they
need improvement, and make informed decisions about when and how to release new
software versions. However, existing models need lots of manually labeled data
for fine-tuning processes, and ignore sentence-level semantic information,
which is often essential for discovering the difference between diverse
commits. Therefore, it is still challenging to solve CC in fewshot scenario.
To solve the above problems, we propose a contrastive learning-based commit
classification framework. Firstly, we generate $K$ sentences and pseudo-labels
according to the labels of the dataset, which aims to enhance the dataset.
Secondly, we randomly group the augmented data $N$ times to compare their
similarity with the positive $T_p^{|C|}$ and negative $T_n^{|C|}$ samples. We
utilize individual pretrained sentence transformers (ST)s to efficiently obtain
the sentence-level embeddings from different features respectively. Finally, we
adopt the cosine similarity function to limit the distribution of vectors,
similar vectors are more adjacent. The light fine-tuned model is then applied
to the label prediction of incoming commits.
Extensive experiments on two open available datasets demonstrate that our
framework can solve the CC problem simply but effectively in fewshot scenarios,
while achieving state-of-the-art(SOTA) performance and improving the
adaptability of the model without requiring a large number of training samples
for fine-tuning. The code, data, and trained models are available at
https://github.com/AppleMax1992/CommitFit.
- Abstract(参考訳): コミット分類(CC)はソフトウェアのメンテナンスにおいて重要なタスクであり、ソフトウェア開発者がコードの変更をその性質と目的に応じて異なるタイプに分類するのに役立つ。
これによって開発者は、開発作業の進捗状況の理解を深め、改善が必要な領域を特定し、新しいソフトウェアバージョンのリリース時期と方法に関するインフォームドな意思決定が可能になる。
しかし、既存のモデルは微調整プロセスのために多くの手作業でラベル付けされたデータを必要とし、文レベルの意味情報を無視している。
したがって、CCをスプリットショットシナリオで解決することは依然として困難である。
上記の問題を解決するために,比較学習に基づくコミット分類フレームワークを提案する。
まず、データセットのラベルに従って、$K$文と擬似ラベルを生成し、データセットを強化することを目的とする。
次に, 正の$T_p^{|C|} と負の$T_n^{|C|} とをランダムにグループ化し, 類似性を比較した。
個別事前訓練文変換器(ST)を用いて,異なる特徴から文レベルの埋め込みを効率よく得る。
最後に、類似ベクトルがより近接しているベクトルの分布を制限するためにコサイン類似性関数を採用する。
次に、光微調整モデルを用いて、入ってくるコミットのラベル予測を行う。
2つのオープンデータセットに対する大規模な実験により、我々のフレームワークは、最先端(SOTA)性能を実現し、微調整のための多数のトレーニングサンプルを必要とせずにモデルの適応性を向上しつつ、単純な、かつ効果的にCC問題を解決することができることを示した。
コード、データ、トレーニングされたモデルはhttps://github.com/AppleMax 1992/CommitFit.comで入手できる。
関連論文リスト
- Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures [0.0]
本研究では,コード類似度評価のための新しいアンサンブル学習手法を提案する。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を軽減することである。
論文 参考訳(メタデータ) (2024-05-03T13:42:49Z) - Incorprating Prompt tuning for Commit classification with prior
Knowledge [0.76146285961466]
コミット分類(CC)はソフトウェアのメンテナンスにおいて重要なタスクである。
本稿では,事前知識を用いたコミット分類のためのプロンプトチューニングを組み込んだ生成フレームワークを提案する。
我々のフレームワークはCCの問題をシンプルに解決できるが、ほとんどショットやゼロショットのシナリオでは効果的に解決できる。
論文 参考訳(メタデータ) (2023-08-21T09:17:43Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Imbalance Learning for Variable Star Classification [0.0]
我々は,不均衡な学習問題を克服する階層型機械学習分類手法を開発した。
私たちは'データレベル'アプローチを使用して、トレーニングデータを直接拡張し、表現不足のクラスをよりよく記述します。
階層モデルで$texttGpFit$を使用すると,より高い分類率が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-27T19:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。