論文の概要: Evaluating the Performance and Efficiency of Sentence-BERT for Code Comment Classification
- arxiv url: http://arxiv.org/abs/2506.08581v1
- Date: Tue, 10 Jun 2025 08:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.054147
- Title: Evaluating the Performance and Efficiency of Sentence-BERT for Code Comment Classification
- Title(参考訳): コードコメント分類のための文BERTの性能と効率の評価
- Authors: Fabian C. Peña, Steffen Herbold,
- Abstract要約: 本研究は,複数ラベルのコードコメント分類タスクに対してSentence-BERTを評価する。
ラベル付きコメント文13,216のデータセットを使用して、Sentence-BERTモデルは微調整され、異なる分類ヘッドと組み合わせてコメントタイプを認識する。
- 参考スコア(独自算出の注目度): 4.381476817430934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work evaluates Sentence-BERT for a multi-label code comment classification task seeking to maximize the classification performance while controlling efficiency constraints during inference. Using a dataset of 13,216 labeled comment sentences, Sentence-BERT models are fine-tuned and combined with different classification heads to recognize comment types. While larger models outperform smaller ones in terms of F1, the latter offer outstanding efficiency, both in runtime and GFLOPS. As result, a balance between a reasonable F1 improvement (+0.0346) and a minimal efficiency degradation (+1.4x in runtime and +2.1x in GFLOPS) is reached.
- Abstract(参考訳): 本研究は,複数ラベルのコードコメント分類タスクに対して,推論時の効率制約を制御しながら,分類性能を最大化するためのセンテンス-BERTを評価する。
ラベル付きコメント文13,216のデータセットを使用して、Sentence-BERTモデルは微調整され、異なる分類ヘッドと組み合わせてコメントタイプを認識する。
より大きなモデルはF1の点でより小さなモデルより優れているが、後者は実行時とGFLOPSの両方で優れた効率を提供する。
その結果、合理的なF1改善(+0.0346)と最小効率劣化(+1.4x、GFLOPS+2.1x)のバランスに達する。
関連論文リスト
- Improving the Efficiency of Long Document Classification using Sentence Ranking Approach [0.4499833362998489]
本稿では,TF-IDFに基づく文ランク付け手法を提案する。
提案手法は,固定数とパーセンテージに基づく文選択と,正規化TF-IDFスコアと文長を組み合わせた評価戦略の強化である。
入力サイズを50%以上削減し、推論遅延を43%削減しながら、フルコンテキストのベースラインと比較して、ほぼ同一の分類精度をわずか0.3パーセントの低下で達成します。
論文 参考訳(メタデータ) (2025-06-08T18:09:43Z) - DiaBlo: Diagonal Blocks Are Sufficient For Finetuning [5.615105036691153]
選択したモデル重み行列の対角ブロックのみを更新するPEFTアプローチであるDiaBloを提案する。
ローランク適応(LoRA)とその変種とは異なり、ダイアブロはローランク行列生成物の必要性を排除している。
この設計は、LoRAに匹敵するメモリ効率とトレーニング速度を維持しながら、安定かつ堅牢な収束をもたらす。
論文 参考訳(メタデータ) (2025-06-03T13:47:59Z) - Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - ModernBERT is More Efficient than Conventional BERT for Chest CT Findings Classification in Japanese Radiology Reports [0.19972837513980313]
両言語モデルにおける経時的双方向表現(BERT)と,より新しいModernBERT-inによる胸部CT所見との比較を行った。
ModernBERTは、BERT Baseよりも24.0%少ないトークン化効率を示した。
これらの効率向上にもかかわらず、分類性能は同等であり、ModernBERTはF1スコアを8条件で上回ったが、BERTは4条件で上回った。
論文 参考訳(メタデータ) (2025-03-07T00:28:08Z) - Fine-tuning Aligned Classifiers for Merging Outputs: Towards a Superior Evaluation Protocol in Model Merging [25.971290900574875]
そこで本研究では,数発の未ラベルサンプルで整列型分類器を微調整するプロトコルFT-Classifierを提案する。
これらの観測結果に基づいて,数発の未ラベルサンプルで整列型分類器を微調整する新しいプロトコルFT-Classifierを提案する。
論文 参考訳(メタデータ) (2024-12-18T05:53:15Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Generate, Discriminate and Contrast: A Semi-Supervised Sentence
Representation Learning Framework [68.04940365847543]
本稿では,大規模未ラベルデータを効果的に活用する半教師付き文埋め込みフレームワークGenSEを提案する。
1) 生成: 生成: 生成/識別器モデルはオープンドメインの未ラベルコーパスから文ペアを合成するために共同で訓練される; 2) 識別: ノイズのある文ペアは識別器によってフィルタリングされ、高品質な正と負の文ペアを取得する; 3) コントラスト: 注釈付きデータと合成されたデータの両方を用いて文表現を学習するために、プロンプトベースのコントラクティブアプローチが提示される。
論文 参考訳(メタデータ) (2022-10-30T10:15:21Z) - Efficient, Uncertainty-based Moderation of Neural Networks Text
Classifiers [8.883733362171034]
本稿では,分類器の出力を効率よく操作できるフレームワークを提案する。
予測の不確実性を利用して、不確実で、おそらく不正確な分類を人間のモデレーターに渡す半自動化アプローチを提案する。
一連のベンチマーク実験により、我々のフレームワークは分類F1スコアを5.1から11.2%改善できることが示された。
論文 参考訳(メタデータ) (2022-04-04T09:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。