論文の概要: Optimizing Deep Learning Models to Address Class Imbalance in Code Comment Classification
- arxiv url: http://arxiv.org/abs/2501.15854v1
- Date: Mon, 27 Jan 2025 08:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:28.194564
- Title: Optimizing Deep Learning Models to Address Class Imbalance in Code Comment Classification
- Title(参考訳): コードコメント分類におけるクラス不均衡に対応するディープラーニングモデルの最適化
- Authors: Moritz Mock, Thomas Borsani, Giuseppe Di Fatta, Barbara Russo,
- Abstract要約: 本研究では、損失関数の異なる重み付け戦略を用いて、データセット内の特定のクラスの不足を軽減する。
我々のアプローチは、NLBSE'25ツールコンペティションデータセットでSTACCベースラインを8.9%上回る。
- 参考スコア(独自算出の注目度): 1.1413213711605255
- License:
- Abstract: Developers rely on code comments to document their work, track issues, and understand the source code. As such, comments provide valuable insights into developers' understanding of their code and describe their various intentions in writing the surrounding code. Recent research leverages natural language processing and deep learning to classify comments based on developers' intentions. However, such labelled data are often imbalanced, causing learning models to perform poorly. This work investigates the use of different weighting strategies of the loss function to mitigate the scarcity of certain classes in the dataset. In particular, various RoBERTa-based transformer models are fine-tuned by means of a hyperparameter search to identify their optimal parameter configurations. Additionally, we fine-tuned the transformers with different weighting strategies for the loss function to address class imbalances. Our approach outperforms the STACC baseline by 8.9 per cent on the NLBSE'25 Tool Competition dataset in terms of the average F1$_c$ score, and exceeding the baseline approach in 17 out of 19 cases with a gain ranging from -5.0 to 38.2. The source code is publicly available at https://github.com/moritzmock/NLBSE2025.
- Abstract(参考訳): 開発者は自分の作業をドキュメント化し、問題を追跡し、ソースコードを理解するためにコードコメントに頼る。
このように、コメントは開発者がコードを理解することについて貴重な洞察を与え、周囲のコードを記述する際の様々な意図を説明する。
近年の研究では、自然言語処理とディープラーニングを活用して、開発者の意図に基づいてコメントを分類している。
しかし、ラベル付きデータはしばしば不均衡であり、学習モデルの性能が低下する。
本研究では、損失関数の異なる重み付け戦略を用いて、データセット内の特定のクラスの不足を軽減する。
特に、様々なRoBERTaベースのトランスモデルは、パラメータの最適設定を特定するために、ハイパーパラメータサーチによって微調整される。
さらに、クラス不均衡に対応するために、損失関数の重み付け戦略が異なる変圧器を微調整した。
NLBSE'25ツールコンペティションでは,平均F1$_c$スコアでSTACCベースラインを8.9%上回り,5.0から38.2の範囲で19例中17例でベースラインアプローチを上回った。
ソースコードはhttps://github.com/moritzmock/NLBSE2025で公開されている。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Dopamin: Transformer-based Comment Classifiers through Domain Post-Training and Multi-level Layer Aggregation [6.3403707560721845]
過剰なコメントは無意味で非生産的です。
本稿では,この問題を解決するためのトランスフォーマーベースのツールであるDopaminを紹介する。
本モデルは,複数の言語にまたがる共通カテゴリの知識共有を行うだけでなく,コメント分類における堅牢な性能を実現する上でも優れている。
論文 参考訳(メタデータ) (2024-08-06T08:08:43Z) - An Ordinal Regression Framework for a Deep Learning Based Severity
Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。
符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文 参考訳(メタデータ) (2024-02-08T14:00:45Z) - Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。
モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。
この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文 参考訳(メタデータ) (2023-11-07T16:31:56Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Boosting Commit Classification with Contrastive Learning [0.8655526882770742]
コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。
対照的な学習に基づくコミット分類フレームワークを提案する。
われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
論文 参考訳(メタデータ) (2023-08-16T10:02:36Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。