Fugu-MT 論文翻訳(概要): Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models

論文の概要: Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models

arxiv url: http://arxiv.org/abs/2506.00128v1
Date: Fri, 30 May 2025 18:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.380152
Title: Applying Large Language Models to Issue Classification: Revisiting with Extended Data and New Models
Title（参考訳）: 大規模言語モデルを問題分類に適用する:拡張データと新しいモデルによる再考
Authors: Gabriel Aracena, Kyle Luster, Fabio Santos, Igor Steinmacher, Marco A. Gerosa,
Abstract要約: 手動のイシュー分類は面倒でスケーラビリティに欠けています。伝統的に、問題分類には機械学習技術が用いられてきた。大規模言語モデル(LLM)は、ソフトウェア工学の課題に対処するための強力なツールとして登場した。
参考スコア（独自算出の注目度）: 11.698978613605561
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective prioritization of issue reports in software engineering helps to optimize resource allocation and information recovery. However, manual issue classification is laborious and lacks scalability. As an alternative, many open source software (OSS) projects employ automated processes for this task, yet this method often relies on large datasets for adequate training. Traditionally, machine learning techniques have been used for issue classification. More recently, large language models (LLMs) have emerged as powerful tools for addressing a range of software engineering challenges, including code and test generation, mapping new requirements to legacy software endpoints, and conducting code reviews. The following research investigates an automated approach to issue classification based on LLMs. By leveraging the capabilities of such models, we aim to develop a robust system for prioritizing issue reports, mitigating the necessity for extensive training data while also maintaining reliability in classification. In our research, we developed an LLM-based approach for accurately labeling issues by selecting two of the most prominent large language models. We then compared their performance across multiple datasets. Our findings show that GPT-4o achieved the best results in classifying issues from the NLBSE 2024 competition. Moreover, GPT-4o outperformed DeepSeek R1, achieving an F1 score 20% higher when both models were trained on the same dataset from the NLBSE 2023 competition, which was ten times larger than the NLBSE 2024 dataset. The fine-tuned GPT-4o model attained an average F1 score of 80.7%, while the fine-tuned DeepSeek R1 model achieved 59.33%. Increasing the dataset size did not improve the F1 score, reducing the dependence on massive datasets for building an efficient solution to issue classification.
Abstract（参考訳）: ソフトウェア工学におけるイシューレポートの効果的な優先順位付けは、リソース割り当てと情報リカバリの最適化に役立つ。しかし、手動のイシュー分類は面倒でスケーラビリティに欠ける。代替として、多くのオープンソースプロジェクト(OSS)がこのタスクに自動化プロセスを採用するが、この方法は適切なトレーニングのために大規模なデータセットに依存することが多い。伝統的に、問題分類には機械学習技術が用いられてきた。最近では,コードやテスト生成,新たな要件のレガシソフトウェアエンドポイントへのマッピング,コードレビューの実行など,さまざまなソフトウェアエンジニアリング上の課題に対処するための強力なツールとして,大規模言語モデル(LLM)が登場している。以下は LLM に基づく自動分類手法について考察する。このようなモデルの能力を活用して,課題報告の優先順位付け,広範囲なトレーニングデータの必要性の軽減,さらには分類における信頼性の維持を目的とした,堅牢なシステムの構築を目指す。本研究では,LLMをベースとした大規模言語モデルの2つを選択することで,問題の正確なラベル付けを行う手法を開発した。そして、そのパフォーマンスを複数のデータセットで比較しました。以上の結果から, GPT-4oはNLBSE 2024コンペティションの課題の分類において最高の結果を得た。さらに、GPT-4oはDeepSeek R1より優れており、両方のモデルがNLBSE 2024データセットの10倍のNLBSE 2023コンペティションから同じデータセットでトレーニングされた場合、F1スコアは20%高かった。微調整のGPT-4oモデルの平均F1スコアは80.7%、微調整のDeepSeek R1モデルは59.33%に達した。データセットのサイズが大きくなると、F1スコアは向上せず、分類を発行する効率的なソリューションを構築するための大量のデータセットへの依存を減らした。

関連論文リスト

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文参考訳（メタデータ） (2025-08-07T15:34:06Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
CTDGSI: A comprehensive exploitation of instance selection methods for automatic text classification. VII Concurso de Teses, Dissertações e Trabalhos de Graduação em SI -- XXI Simpósio Brasileiro de Sistemas de Informação [9.069939079065298]
この論文は、インスタンス選択(IS)として知られる、包括的でないNLPデータエンジニアリング技術に焦点を当てている。 ISの目標は、トレーニングされたモデルの有効性を維持しながら、ノイズや冗長なインスタンスを削除することで、トレーニングセットのサイズを減らすことである。我々のソリューションは1.67倍(最大2.46倍)のスピードアップ改善を示し、数十万のドキュメントを持つデータセットにスケーラブルになった。
論文参考訳（メタデータ） (2025-06-08T14:34:57Z)
DeepDistill: Enhancing LLM Reasoning Capabilities via Large-Scale Difficulty-Graded Data Training [16.441081996257576]
大規模言語モデル(LLM)は、最近、様々な複雑な推論ベンチマークで顕著なパフォーマンスを達成した。難易度が変化する約334万のユニークなクエリを含む大規模で難易度の高い推論データセットを構築した。 AIME2024の数学的推論ベンチマークで79.2%のパス率を達成することで、ベースモデルの推論能力を大幅に改善する。
論文参考訳（メタデータ） (2025-04-24T13:57:53Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR) CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文参考訳（メタデータ） (2024-02-28T09:27:29Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。