論文の概要: An Empirical Study on the Effectiveness of Large Language Models for SATD Identification and Classification
- arxiv url: http://arxiv.org/abs/2405.06806v1
- Date: Fri, 10 May 2024 20:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 20:05:32.569800
- Title: An Empirical Study on the Effectiveness of Large Language Models for SATD Identification and Classification
- Title(参考訳): SATD識別と分類における大規模言語モデルの有効性に関する実証的研究
- Authors: Mohammad Sadegh Sheikhaei, Yuan Tian, Shaowei Wang, Bowen Xu,
- Abstract要約: Self-Admitted Technical Debt (SATD) は、コードコメントやその他のプロジェクトリソースに文書化されたソフトウェア開発における準最適選択を強調する概念である。
本稿では,SATDの識別と分類における大規模言語モデル(LLM)の有効性について検討する。
- 参考スコア(独自算出の注目度): 13.698224831089464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-Admitted Technical Debt (SATD), a concept highlighting sub-optimal choices in software development documented in code comments or other project resources, poses challenges in the maintainability and evolution of software systems. Large language models (LLMs) have demonstrated significant effectiveness across a broad range of software tasks, especially in software text generation tasks. Nonetheless, their effectiveness in tasks related to SATD is still under-researched. In this paper, we investigate the efficacy of LLMs in both identification and classification of SATD. For both tasks, we investigate the performance gain from using more recent LLMs, specifically the Flan-T5 family, across different common usage settings. Our results demonstrate that for SATD identification, all fine-tuned LLMs outperform the best existing non-LLM baseline, i.e., the CNN model, with a 4.4% to 7.2% improvement in F1 score. In the SATD classification task, while our largest fine-tuned model, Flan-T5-XL, still led in performance, the CNN model exhibited competitive results, even surpassing four of six LLMs. We also found that the largest Flan-T5 model, i.e., Flan-T5-XXL, when used with a zero-shot in-context learning (ICL) approach for SATD identification, provides competitive results with traditional approaches but performs 6.4% to 9.2% worse than fine-tuned LLMs. For SATD classification, few-shot ICL approach, incorporating examples and category descriptions in prompts, outperforms the zero-shot approach and even surpasses the fine-tuned smaller Flan-T5 models. Moreover, our experiments demonstrate that incorporating contextual information, such as surrounding code, into the SATD classification task enables larger fine-tuned LLMs to improve their performance.
- Abstract(参考訳): Self-Admitted Technical Debt (SATD)は、コードコメントやその他のプロジェクトリソースに文書化されたソフトウェア開発における最適な選択を強調する概念で、ソフトウェアシステムの保守性と進化に課題を提起する。
大規模言語モデル(LLM)は、特にソフトウェアテキスト生成タスクにおいて、幅広いソフトウェアタスクにおいて顕著な効果を示している。
しかしながら、SATDに関連するタスクにおけるそれらの効果はいまだ研究されていない。
本稿では,SATDの識別と分類におけるLCMの有効性について検討する。
両タスクにおいて、より最近のLLM、特にFlan-T5ファミリの使用によるパフォーマンス向上を、様々な共通利用設定で検討する。
以上の結果から,SATDの同定では,全ての微調整LDMが既存の非LLMベースライン,すなわちCNNモデルよりも優れており,F1スコアは4.4%から7.2%向上していることがわかった。
SATD分類タスクでは、我々の最大の微調整モデルであるFlan-T5-XLがまだパフォーマンスをリードする一方で、CNNモデルは6つのLLMのうち4つを超える競争結果を示した。
また,最大となるFlan-T5モデルであるFlan-T5-XXLが,SATD識別のためのゼロショット・インコンテキスト・ラーニング(ICL)アプローチで使用される場合,従来のアプローチと競合する結果が得られるが,微調整LLMよりも6.4%から9.2%悪い結果が得られた。
SATD分類では、例とカテゴリ記述をプロンプトに組み込んだ少数ショットICLアプローチがゼロショットアプローチより優れており、細調整されたFlan-T5モデルよりも優れている。
さらに、SATD分類タスクに周辺コードなどの文脈情報を組み込むことにより、より大規模な微調整LDMによる性能向上が可能であることを示す。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。
ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with
Self-Correction [7.388002745070808]
本研究では、生成問題をサブプロブレムに分解し、それらのサブプロブレムの解を大規模言語モデルに供給する方法について検討する。
文脈内学習による我々のアプローチは、多くの微調整されたモデルを少なくとも5%上回っている。
論文 参考訳(メタデータ) (2023-04-21T15:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。