論文の概要: Prompt Learning for Multi-Label Code Smell Detection: A Promising
Approach
- arxiv url: http://arxiv.org/abs/2402.10398v1
- Date: Fri, 16 Feb 2024 01:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:56:47.915410
- Title: Prompt Learning for Multi-Label Code Smell Detection: A Promising
Approach
- Title(参考訳): multi-label code smell detectionのためのプロンプト学習:有望なアプローチ
- Authors: Haiyang Liu, Yang Zhang, Vidya Saikrishna, Quanquan Tian, Kun Zheng
- Abstract要約: コードの臭いは、開発者がコードの臭いを検出することによって機会を識別できるように、ソフトウェア品質の潜在的な問題を示している。
提案手法は,複数ラベルのコードの臭いを早期に検出する手法である textitPromptSmell を提案する。
- 参考スコア(独自算出の注目度): 6.74877139507271
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code smells indicate the potential problems of software quality so that
developers can identify refactoring opportunities by detecting code smells.
State-of-the-art approaches leverage heuristics, machine learning, and deep
learning to detect code smells. However, existing approaches have not fully
explored the potential of large language models (LLMs). In this paper, we
propose \textit{PromptSmell}, a novel approach based on prompt learning for
detecting multi-label code smell. Firstly, code snippets are acquired by
traversing abstract syntax trees. Combined code snippets with natural language
prompts and mask tokens, \textit{PromptSmell} constructs the input of LLMs.
Secondly, to detect multi-label code smell, we leverage a label combination
approach by converting a multi-label problem into a multi-classification
problem. A customized answer space is added to the word list of pre-trained
language models, and the probability distribution of intermediate answers is
obtained by predicting the words at the mask positions. Finally, the
intermediate answers are mapped to the target class labels by a verbalizer as
the final classification result. We evaluate the effectiveness of
\textit{PromptSmell} by answering six research questions. The experimental
results demonstrate that \textit{PromptSmell} obtains an improvement of 11.17\%
in $precision_{w}$ and 7.4\% in $F1_{w}$ compared to existing approaches.
- Abstract(参考訳): コードの臭いは、開発者がコードの臭いを検出することでリファクタリングの機会を識別できるように、ソフトウェア品質の潜在的な問題を示しています。
最先端のアプローチでは、ヒューリスティック、機械学習、ディープラーニングを利用してコードの臭いを検出する。
しかし、既存のアプローチでは、大きな言語モデル(LLM)の可能性について完全には検討されていない。
本稿では,複数ラベルの臭いを検出するためのプロンプト学習に基づく新しい手法である \textit{promptsmell} を提案する。
まず、コードスニペットは抽象構文木を横切ることで取得される。
自然言語プロンプトとマスクトークンを組み合わせたコードスニペットで、textit{PromptSmell} は LLM の入力を構成する。
次に,マルチラベルコードの臭いを検出するために,マルチラベル問題をマルチクラス化問題に変換することにより,ラベルの組み合わせアプローチを活用する。
事前訓練された言語モデルの単語リストにカスタマイズされた回答空間を追加し、マスク位置での単語予測により中間回答の確率分布を求める。
最後に、最終分類結果として、中間回答を動詞化器により対象クラスラベルにマッピングする。
6つの研究課題に答えることにより,textit{PromptSmell}の有効性を評価する。
実験の結果, \textit{promptsmell} は$precision_{w}$ で 11.17\%,$f1_{w}$ で 7.4\% の改善が得られることがわかった。
関連論文リスト
- Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - DACOS-A Manually Annotated Dataset of Code Smells [4.753388560240438]
5,192のコードスニペットに対して10,267のアノテーションを含む手動注釈付きデータセットであるDACOSを提案する。
データセットは、多面的抽象化、複雑なメソッド、長いパラメータリストという、粒度の異なる3種類のコードの臭いをターゲットとしています。
私たちは、アノテーションがスニペットを1つずつ見てマークし、提供されたアノテーションを記録するのを助けるWebアプリケーションであるTagManを開発した。
論文 参考訳(メタデータ) (2023-03-15T16:13:40Z) - Addressing Leakage in Self-Supervised Contextualized Code Retrieval [3.693362838682697]
部分的な入力プログラムのギャップを埋めるのに役立つコードスニペットの検索である、文脈化されたコード検索に対処する。
提案手法は,ソースコードをランダムにコンテキストとターゲットに分割することで,大規模な自己指導型コントラストトレーニングを促進する。
両者の漏えいに対処するため, 相互識別マスキング, 復号化, 構文に整合したターゲットの選択に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-17T12:58:38Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Pre-trained Token-replaced Detection Model as Few-shot Learner [31.40447168356879]
ELECTRAのような事前訓練されたトークン置換検出モデルを用いて,少数ショット学習のための新しい手法を提案する。
16のデータセットの体系的評価により,事前学習されたマスキング言語モデルを用いた数発の学習者よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-07T09:47:53Z) - CLSEBERT: Contrastive Learning for Syntax Enhanced Code Pre-Trained
Model [23.947178895479464]
CLSEBERTは,構文強化符号事前学習モデルのための構築学習フレームワークである。
事前学習段階では、抽象構文木(AST)に含まれるコード構文と階層について検討する。
ひとつは抽象構文木内のノード間のエッジを予測することであり、もう一つはコードトークンの型を予測することである。
論文 参考訳(メタデータ) (2021-08-10T10:08:21Z) - Label Mask for Multi-Label Text Classification [6.742627397194543]
本稿では,言語モデルのクローズ問題に着想を得た多言語テキスト分類モデル (LM-MTC) を提案する。
そこで,各潜在的なラベルに対して異なるトークンを割り当て,ある確率でランダムにトークンをマスクし,ラベルに基づくマスケッド言語モデル(MLM)を構築する。
論文 参考訳(メタデータ) (2021-06-18T11:54:33Z) - LabelEnc: A New Intermediate Supervision Method for Object Detection [78.74368141062797]
本稿では,オブジェクト検出システムのトレーニングを促進するため,LabelEncという新たな中間監視手法を提案する。
鍵となるアイデアは、新しいラベル符号化機能を導入し、接地木ラベルを潜伏埋め込みにマッピングすることである。
実験の結果,COCOデータセット上での検出精度は,約2%向上した。
論文 参考訳(メタデータ) (2020-07-07T08:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。