論文の概要: STACC: Code Comment Classification using SentenceTransformers
- arxiv url: http://arxiv.org/abs/2302.13149v1
- Date: Sat, 25 Feb 2023 20:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:38:56.651085
- Title: STACC: Code Comment Classification using SentenceTransformers
- Title(参考訳): STACC: 文変換器を用いたコードコメント分類
- Authors: Ali Al-Kaswan and Maliheh Izadi and Arie van Deursen
- Abstract要約: 本稿では,SentenceTransformers ベースのバイナリ分類器の集合 STACC を提案する。
それらは、NLBSEコードコメント分類ツールコンペティションデータセットでトレーニングされ、テストされている。
彼らはベースラインをかなり上回り、平均F1スコアは0.74であり、ベースラインは0.31であり、改善率は139%である。
- 参考スコア(独自算出の注目度): 4.438873396405334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code comments are a key resource for information about software artefacts.
Depending on the use case, only some types of comments are useful. Thus,
automatic approaches to classify these comments are proposed. In this work, we
address this need by proposing, STACC, a set of SentenceTransformers-based
binary classifiers. These lightweight classifiers are trained and tested on the
NLBSE Code Comment Classification tool competition dataset, and surpass the
baseline by a significant margin, achieving an average F1 score of 0.74 against
the baseline of 0.31, which is an improvement of 139%. A replication package,
as well as the models themselves, are publicly available.
- Abstract(参考訳): コードコメントは、ソフトウェアアーチファクトに関する情報の鍵となるリソースである。
ユースケースによっては、いくつかのタイプのコメントだけが有用です。
そこで,これらのコメントを自動分類する手法を提案する。
本稿では、SentenceTransformersベースのバイナリ分類器であるSTACCを提案することで、このニーズに対処する。
これらの軽量分類器は、nlbseコードコメント分類ツール競合データセットでトレーニングおよびテストされ、ベースラインをかなりのマージンで上回り、ベースライン 0.31に対して平均的なf1スコア 0.74 となり、これは139%の改善である。
レプリケーションパッケージとモデル自体が公開されている。
関連論文リスト
- Dopamin: Transformer-based Comment Classifiers through Domain Post-Training and Multi-level Layer Aggregation [6.3403707560721845]
過剰なコメントは無意味で非生産的です。
本稿では,この問題を解決するためのトランスフォーマーベースのツールであるDopaminを紹介する。
本モデルは,複数の言語にまたがる共通カテゴリの知識共有を行うだけでなく,コメント分類における堅牢な性能を実現する上でも優れている。
論文 参考訳(メタデータ) (2024-08-06T08:08:43Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - Incubating Text Classifiers Following User Instruction with Nothing but LLM [37.92922713921964]
任意のクラス定義(ユーザ・インストラクション)を与えられたテキスト分類データを生成するフレームワークを提案する。
提案したインキュベータは、複雑で相互に依存したクラスを処理できる最初のフレームワークです。
論文 参考訳(メタデータ) (2024-04-16T19:53:35Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。
提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文 参考訳(メタデータ) (2021-12-14T08:25:24Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Decoding machine learning benchmarks [0.0]
アイテム応答理論(IRT)は、優れた機械学習ベンチマークとなるべきものを解明するための新しいアプローチとして登場した。
IRTは、よく知られたOpenML-CC18ベンチマークを探索し、分類器の評価にどの程度適しているかを特定した。
論文 参考訳(メタデータ) (2020-07-29T14:39:41Z) - Federated Learning with Only Positive Labels [71.63836379169315]
FedAwS(Federated Averaging with Spreadout)という,正のラベルのみを用いたトレーニングのための汎用フレームワークを提案する。
理論的にも経験的にも、FedAwSは、ユーザが負のラベルにアクセス可能な従来の学習のパフォーマンスとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2020-04-21T23:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。