論文の概要: Applying Large Language Models API to Issue Classification Problem
- arxiv url: http://arxiv.org/abs/2401.04637v1
- Date: Tue, 9 Jan 2024 16:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:25:18.040988
- Title: Applying Large Language Models API to Issue Classification Problem
- Title(参考訳): 分類問題への大規模言語モデルAPIの適用
- Authors: Gabriel Aracena, Kyle Luster, Fabio Santos, Igor Steinmacher, Marco A.
Gerosa
- Abstract要約: 本研究は,課題優先順位付けにおける信頼性を保証する自動アプローチの考案を目指す。
提案手法は,GPT(Generative Pre-trained Transformer)のパワーを利用する。
我々は、トレーニングデータセットを縮小した問題レポートを正確にラベル付けし、優先順位付けするための信頼性の高いGPTベースのアプローチを開発した。
- 参考スコア(独自算出の注目度): 12.551201872867264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective prioritization of issue reports is crucial in software engineering
to optimize resource allocation and address critical problems promptly.
However, the manual classification of issue reports for prioritization is
laborious and lacks scalability. Alternatively, many open source software (OSS)
projects employ automated processes for this task, albeit relying on
substantial datasets for adequate training. This research seeks to devise an
automated approach that ensures reliability in issue prioritization, even when
trained on smaller datasets. Our proposed methodology harnesses the power of
Generative Pre-trained Transformers (GPT), recognizing their potential to
efficiently handle this task. By leveraging the capabilities of such models, we
aim to develop a robust system for prioritizing issue reports accurately,
mitigating the necessity for extensive training data while maintaining
reliability. In our research, we have developed a reliable GPT-based approach
to accurately label and prioritize issue reports with a reduced training
dataset. By reducing reliance on massive data requirements and focusing on
few-shot fine-tuning, our methodology offers a more accessible and efficient
solution for issue prioritization in software engineering. Our model predicted
issue types in individual projects up to 93.2% in precision, 95% in recall, and
89.3% in F1-score.
- Abstract(参考訳): 問題レポートの効果的な優先順位付けは、リソース割り当てを最適化し、重要な問題に迅速に対処するために、ソフトウェア工学において不可欠である。
しかし、優先順位付けのためのイシューレポートのマニュアル分類は面倒でスケーラビリティに欠ける。
あるいは、多くのオープンソースソフトウェア(OSS)プロジェクトでは、適切なトレーニングのためにかなりのデータセットに依存するにもかかわらず、このタスクに自動化プロセスを採用している。
この研究は、より小さなデータセットでトレーニングされた場合でも、課題優先順位付けの信頼性を保証する自動化アプローチを考案することを目指している。
提案手法は,GPT(Generative Pre-trained Transformer)のパワーを活用し,このタスクを効率的に処理できる可能性を認識する。
このようなモデルの能力を活用して,信頼性を維持しつつ広範なトレーニングデータの必要性を軽減し,課題報告を正確に優先順位付けする堅牢なシステムを開発することを目的とする。
本研究では,トレーニングデータセットの削減による課題レポートの正確なラベル付けと優先順位付けを行う,信頼性の高いGPTベースのアプローチを開発した。
大量のデータ要求への依存を減らし、数秒の微調整にフォーカスすることで、ソフトウェア工学における課題優先順位付けをよりアクセスしやすく効率的なソリューションを提供する。
本モデルでは,各プロジェクトのイシュータイプを精度93.2%,リコール95%,f1-score89.3%と予測した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Uncertainty Minimization for Personalized Federated Semi-Supervised
Learning [15.123493340717303]
我々は,データ関連クライアント(ヘルパーエージェント)からのラベリング支援を部分的にラベル付けまたは未ラベルのクライアントが求めることのできる,新しい半教師付き学習パラダイムを提案する。
実験により,提案手法は部分ラベル付きデータを用いた他の関連する研究よりも優れた性能と安定な収束が得られることが示された。
論文 参考訳(メタデータ) (2022-05-05T04:41:27Z) - Identifying Non-Control Security-Critical Data through Program Dependence Learning [9.764831771725952]
データ指向攻撃において、基本的なステップは、制御不能でセキュリティクリティカルなデータを特定することである。
本稿では,従来のプログラム分析とディープラーニングを組み合わせた新しい手法を提案する。
このツールチェーンは、Google FuzzBenchで80の潜在的クリティカル変数を明らかにする。
論文 参考訳(メタデータ) (2021-08-27T00:28:06Z) - Automatic Feasibility Study via Data Quality Analysis for ML: A
Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。
我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。
エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文 参考訳(メタデータ) (2020-10-16T14:21:19Z) - Auxiliary Task Reweighting for Minimum-data Learning [118.69683270159108]
教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。
データ不足を補う1つの方法は、補助的なタスクを利用して、メインタスクに対する追加の監視を提供することである。
そこで本研究では,主タスクにおけるデータ要求を減らし,補助タスクを自動的に重み付けする手法を提案する。
論文 参考訳(メタデータ) (2020-10-16T08:45:37Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。