Fugu-MT 論文翻訳(概要): Optimizing Deep Learning Models to Address Class Imbalance in Code Comment Classification

論文の概要: Optimizing Deep Learning Models to Address Class Imbalance in Code Comment Classification

arxiv url: http://arxiv.org/abs/2501.15854v1
Date: Mon, 27 Jan 2025 08:28:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.8707
Title: Optimizing Deep Learning Models to Address Class Imbalance in Code Comment Classification
Title（参考訳）: コードコメント分類におけるクラス不均衡に対応するディープラーニングモデルの最適化
Authors: Moritz Mock, Thomas Borsani, Giuseppe Di Fatta, Barbara Russo,
Abstract要約: 本研究では、損失関数の異なる重み付け戦略を用いて、データセット内の特定のクラスの不足を軽減する。我々のアプローチは、NLBSE'25ツールコンペティションデータセットでSTACCベースラインを8.9%上回る。
参考スコア（独自算出の注目度）: 1.1413213711605255
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Developers rely on code comments to document their work, track issues, and understand the source code. As such, comments provide valuable insights into developers' understanding of their code and describe their various intentions in writing the surrounding code. Recent research leverages natural language processing and deep learning to classify comments based on developers' intentions. However, such labelled data are often imbalanced, causing learning models to perform poorly. This work investigates the use of different weighting strategies of the loss function to mitigate the scarcity of certain classes in the dataset. In particular, various RoBERTa-based transformer models are fine-tuned by means of a hyperparameter search to identify their optimal parameter configurations. Additionally, we fine-tuned the transformers with different weighting strategies for the loss function to address class imbalances. Our approach outperforms the STACC baseline by 8.9 per cent on the NLBSE'25 Tool Competition dataset in terms of the average F1$_c$ score, and exceeding the baseline approach in 17 out of 19 cases with a gain ranging from -5.0 to 38.2. The source code is publicly available at https://github.com/moritzmock/NLBSE2025.
Abstract（参考訳）: 開発者は自分の作業をドキュメント化し、問題を追跡し、ソースコードを理解するためにコードコメントに頼る。このように、コメントは開発者がコードを理解することについて貴重な洞察を与え、周囲のコードを記述する際の様々な意図を説明する。近年の研究では、自然言語処理とディープラーニングを活用して、開発者の意図に基づいてコメントを分類している。しかし、ラベル付きデータはしばしば不均衡であり、学習モデルの性能が低下する。本研究では、損失関数の異なる重み付け戦略を用いて、データセット内の特定のクラスの不足を軽減する。特に、様々なRoBERTaベースのトランスモデルは、パラメータの最適設定を特定するために、ハイパーパラメータサーチによって微調整される。さらに、クラス不均衡に対応するために、損失関数の重み付け戦略が異なる変圧器を微調整した。 NLBSE'25ツールコンペティションでは,平均F1$_c$スコアでSTACCベースラインを8.9%上回り,5.0から38.2の範囲で19例中17例でベースラインアプローチを上回った。ソースコードはhttps://github.com/moritzmock/NLBSE2025で公開されている。

関連論文リスト

LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。 49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文参考訳（メタデータ） (2025-05-13T06:26:13Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Optimizing Datasets for Code Summarization: Is Code-Comment Coherence Enough? [11.865113785648932]
コード要約の特定の品質属性であるコード圧縮コヒーレンスが、コードの要約データセットの最適化にどの程度利用できるかを検討する。 2つの最先端データセット(TL-CodeSumとFuncom)から複数のレベルのトレーニングインスタンスを調べ、3つの手作業によるテストセット上で結果モデルを評価する。
論文参考訳（メタデータ） (2025-02-11T15:02:19Z)
Dopamin: Transformer-based Comment Classifiers through Domain Post-Training and Multi-level Layer Aggregation [6.3403707560721845]
過剰なコメントは無意味で非生産的です。本稿では,この問題を解決するためのトランスフォーマーベースのツールであるDopaminを紹介する。本モデルは,複数の言語にまたがる共通カテゴリの知識共有を行うだけでなく,コメント分類における堅牢な性能を実現する上でも優れている。
論文参考訳（メタデータ） (2024-08-06T08:08:43Z)
An Ordinal Regression Framework for a Deep Learning Based Severity Assessment for Chest Radiographs [50.285682227571996]
本稿では,順序回帰問題をモデル,対象関数,分類関数の3つの部分に分割する枠組みを提案する。符号化の選択が性能に強く影響し,コーエンのカッパの選択重み付けに依存することを示す。
論文参考訳（メタデータ） (2024-02-08T14:00:45Z)
Do Language Models Learn Semantics of Code? A Case Study in Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文参考訳（メタデータ） (2023-11-07T16:31:56Z)
Boosting Commit Classification with Contrastive Learning [0.8655526882770742]
コミット分類(CC)は、ソフトウェアのメンテナンスにおいて重要なタスクである。対照的な学習に基づくコミット分類フレームワークを提案する。われわれのフレームワークはCCの問題をシンプルに解決できるが、スプリットショットのシナリオでは効果的に解決できる。
論文参考訳（メタデータ） (2023-08-16T10:02:36Z)
Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文参考訳（メタデータ） (2023-02-13T09:15:00Z)
Intra-class Adaptive Augmentation with Neighbor Correction for Deep Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。本手法は,検索性能の最先端手法を3%～6%向上させる。
論文参考訳（メタデータ） (2022-11-29T14:52:38Z)
CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文参考訳（メタデータ） (2022-02-11T13:49:51Z)
Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文参考訳（メタデータ） (2021-04-01T13:55:21Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。