Fugu-MT 論文翻訳(概要): Applying Large Language Models API to Issue Classification Problem

論文の概要: Applying Large Language Models API to Issue Classification Problem

arxiv url: http://arxiv.org/abs/2401.04637v1
Date: Tue, 9 Jan 2024 16:05:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 15:25:18.040988
Title: Applying Large Language Models API to Issue Classification Problem
Title（参考訳）: 分類問題への大規模言語モデルAPIの適用
Authors: Gabriel Aracena, Kyle Luster, Fabio Santos, Igor Steinmacher, Marco A. Gerosa
Abstract要約: 本研究は,課題優先順位付けにおける信頼性を保証する自動アプローチの考案を目指す。提案手法は,GPT(Generative Pre-trained Transformer)のパワーを利用する。我々は、トレーニングデータセットを縮小した問題レポートを正確にラベル付けし、優先順位付けするための信頼性の高いGPTベースのアプローチを開発した。
参考スコア（独自算出の注目度）: 12.551201872867264
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective prioritization of issue reports is crucial in software engineering to optimize resource allocation and address critical problems promptly. However, the manual classification of issue reports for prioritization is laborious and lacks scalability. Alternatively, many open source software (OSS) projects employ automated processes for this task, albeit relying on substantial datasets for adequate training. This research seeks to devise an automated approach that ensures reliability in issue prioritization, even when trained on smaller datasets. Our proposed methodology harnesses the power of Generative Pre-trained Transformers (GPT), recognizing their potential to efficiently handle this task. By leveraging the capabilities of such models, we aim to develop a robust system for prioritizing issue reports accurately, mitigating the necessity for extensive training data while maintaining reliability. In our research, we have developed a reliable GPT-based approach to accurately label and prioritize issue reports with a reduced training dataset. By reducing reliance on massive data requirements and focusing on few-shot fine-tuning, our methodology offers a more accessible and efficient solution for issue prioritization in software engineering. Our model predicted issue types in individual projects up to 93.2% in precision, 95% in recall, and 89.3% in F1-score.
Abstract（参考訳）: 問題レポートの効果的な優先順位付けは、リソース割り当てを最適化し、重要な問題に迅速に対処するために、ソフトウェア工学において不可欠である。しかし、優先順位付けのためのイシューレポートのマニュアル分類は面倒でスケーラビリティに欠ける。あるいは、多くのオープンソースソフトウェア(OSS)プロジェクトでは、適切なトレーニングのためにかなりのデータセットに依存するにもかかわらず、このタスクに自動化プロセスを採用している。この研究は、より小さなデータセットでトレーニングされた場合でも、課題優先順位付けの信頼性を保証する自動化アプローチを考案することを目指している。提案手法は,GPT(Generative Pre-trained Transformer)のパワーを活用し,このタスクを効率的に処理できる可能性を認識する。このようなモデルの能力を活用して,信頼性を維持しつつ広範なトレーニングデータの必要性を軽減し,課題報告を正確に優先順位付けする堅牢なシステムを開発することを目的とする。本研究では,トレーニングデータセットの削減による課題レポートの正確なラベル付けと優先順位付けを行う,信頼性の高いGPTベースのアプローチを開発した。大量のデータ要求への依存を減らし、数秒の微調整にフォーカスすることで、ソフトウェア工学における課題優先順位付けをよりアクセスしやすく効率的なソリューションを提供する。本モデルでは,各プロジェクトのイシュータイプを精度93.2%,リコール95%,f1-score89.3%と予測した。

関連論文リスト

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文参考訳（メタデータ） (2025-08-07T15:34:06Z)
Resource-Efficient Automatic Software Vulnerability Assessment via Knowledge Distillation and Particle Swarm Optimization [8.132644507041922]
本稿では,知識蒸留と粒子群最適化を統合し,自動脆弱性評価を実現する新しい資源効率フレームワークを提案する。まず、粒子群最適化を用いて、コンパクトな学生モデルのアーキテクチャを最適化する。第2に,大きな教師モデルから最適化された学生モデルへの重要な脆弱性評価知識の伝達に,知識蒸留を適用した。
論文参考訳（メタデータ） (2025-07-30T13:55:28Z)
CTDGSI: A comprehensive exploitation of instance selection methods for automatic text classification. VII Concurso de Teses, Dissertações e Trabalhos de Graduação em SI -- XXI Simpósio Brasileiro de Sistemas de Informação [9.069939079065298]
この論文は、インスタンス選択(IS)として知られる、包括的でないNLPデータエンジニアリング技術に焦点を当てている。 ISの目標は、トレーニングされたモデルの有効性を維持しながら、ノイズや冗長なインスタンスを削除することで、トレーニングセットのサイズを減らすことである。我々のソリューションは1.67倍(最大2.46倍)のスピードアップ改善を示し、数十万のドキュメントを持つデータセットにスケーラブルになった。
論文参考訳（メタデータ） (2025-06-08T14:34:57Z)
Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models [11.698978613605561]
手動のイシュー分類は面倒でスケーラビリティに欠けています。伝統的に、問題分類には機械学習技術が用いられてきた。大規模言語モデル(LLM)は、ソフトウェア工学の課題に対処するための強力なツールとして登場した。
論文参考訳（メタデータ） (2025-05-30T18:02:55Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
Efficient Domain Adaptation of Multimodal Embeddings using Constrastive Learning [0.08192907805418582]
現在のアプローチでは、タスク固有の適応なしに事前訓練されたモデルを使用する際にサブパー結果を得るか、あるいは微調整のためにかなりの計算資源を必要とする。本稿では,高コストな微調整処理を必要とせず,基礎的なマルチモーダルな埋め込みを下流タスクに適用するための新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-04T06:30:12Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2023-10-31T01:08:34Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Cross Project Software Vulnerability Detection via Domain Adaptation and Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文参考訳（メタデータ） (2022-09-19T23:47:22Z)
How Much More Data Do I Need? Estimating Requirements for Downstream Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か? データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文参考訳（メタデータ） (2022-07-04T21:16:05Z)
Uncertainty Minimization for Personalized Federated Semi-Supervised Learning [15.123493340717303]
我々は,データ関連クライアント(ヘルパーエージェント)からのラベリング支援を部分的にラベル付けまたは未ラベルのクライアントが求めることのできる,新しい半教師付き学習パラダイムを提案する。実験により,提案手法は部分ラベル付きデータを用いた他の関連する研究よりも優れた性能と安定な収束が得られることが示された。
論文参考訳（メタデータ） (2022-05-05T04:41:27Z)
Identifying Non-Control Security-Critical Data through Program Dependence Learning [9.764831771725952]
データ指向攻撃において、基本的なステップは、制御不能でセキュリティクリティカルなデータを特定することである。本稿では,従来のプログラム分析とディープラーニングを組み合わせた新しい手法を提案する。このツールチェーンは、Google FuzzBenchで80の潜在的クリティカル変数を明らかにする。
論文参考訳（メタデータ） (2021-08-27T00:28:06Z)
Automatic Feasibility Study via Data Quality Analysis for ML: A Case-Study on Label Noise [21.491392581672198]
我々はSnoopyを紹介し、データサイエンティストと機械学習エンジニアが体系的で理論的に確立された実現可能性研究を行うのを支援することを目的としている。我々は、基礎となるタスクの既約誤差を推定し、この問題にアプローチする。エンド・ツー・エンドの実験では、ユーザーがかなりのラベリング時間と金銭的努力を節約できることを示す。
論文参考訳（メタデータ） (2020-10-16T14:21:19Z)
Auxiliary Task Reweighting for Minimum-data Learning [118.69683270159108]
教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。データ不足を補う1つの方法は、補助的なタスクを利用して、メインタスクに対する追加の監視を提供することである。そこで本研究では,主タスクにおけるデータ要求を減らし,補助タスクを自動的に重み付けする手法を提案する。
論文参考訳（メタデータ） (2020-10-16T08:45:37Z)
Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。本手法では,クラス毎に20～30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文参考訳（メタデータ） (2020-06-27T08:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。