論文の概要: Identifying Technical Debt and Its Types Across Diverse Software Projects Issues
- arxiv url: http://arxiv.org/abs/2408.09128v1
- Date: Sat, 17 Aug 2024 07:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:25:12.448958
- Title: Identifying Technical Debt and Its Types Across Diverse Software Projects Issues
- Title(参考訳): さまざまなソフトウェアプロジェクトにおける技術的負債とそのタイプ
- Authors: Karthik Shivashankar, Mili Orucevic, Maren Maritsdatter Kruke, Antonio Martini,
- Abstract要約: ソフトウェアプロジェクトの課題における技術的負債(TD)の識別は、コード品質の維持、長期的なメンテナンスコストの削減、プロジェクト全体の健全性の向上に不可欠である。
本研究は,大規模ソフトウェア開発において,高精度かつ効率的なTD識別の必要性に対処するため,トランスフォーマーモデルを用いたTD分類を進歩させる。
- 参考スコア(独自算出の注目度): 4.6173290119212265
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Technical Debt (TD) identification in software projects issues is crucial for maintaining code quality, reducing long-term maintenance costs, and improving overall project health. This study advances TD classification using transformer-based models, addressing the critical need for accurate and efficient TD identification in large-scale software development. Our methodology employs multiple binary classifiers for TD and its type, combined through ensemble learning, to enhance accuracy and robustness in detecting various forms of TD. We train and evaluate these models on a comprehensive dataset from GitHub Archive Issues (2015-2024), supplemented with industrial data validation. We demonstrate that in-project fine-tuned transformer models significantly outperform task-specific fine-tuned models in TD classification, highlighting the importance of project-specific context in accurate TD identification. Our research also reveals the superiority of specialized binary classifiers over multi-class models for TD and its type identification, enabling more targeted debt resolution strategies. A comparative analysis shows that the smaller DistilRoBERTa model is more effective than larger language models like GPTs for TD classification tasks, especially after fine-tuning, offering insights into efficient model selection for specific TD detection tasks. The study also assesses generalization capabilities using metrics such as MCC, AUC ROC, Recall, and F1 score, focusing on model effectiveness, fine-tuning impact, and relative performance. By validating our approach on out-of-distribution and real-world industrial datasets, we ensure practical applicability, addressing the diverse nature of software projects.
- Abstract(参考訳): ソフトウェアプロジェクトの課題における技術的負債(TD)の識別は、コード品質の維持、長期的なメンテナンスコストの削減、プロジェクト全体の健全性の向上に不可欠である。
本研究は,大規模ソフトウェア開発において,高精度かつ効率的なTD識別の必要性に対処するため,トランスフォーマーモデルを用いたTD分類を進歩させる。
提案手法では,TD の複数のバイナリ分類器とその型をアンサンブル学習により組み合わせることで,TD の様々な形態を検出する精度と堅牢性を向上する。
私たちはこれらのモデルを、産業データ検証を補完したGitHub Archive Issues (2015-2024)から包括的なデータセットでトレーニングし、評価します。
本研究では,TD分類において,プロジェクト内微調整トランスフォーマーモデルの方がタスク固有の微調整モデルよりも有意に優れており,正確なTD識別におけるプロジェクト固有のコンテキストの重要性を強調している。
また,本研究では,TDのマルチクラスモデルに対する特殊二元分類器の優位性も明らかにした。
比較分析により、小さな DistilRoBERTa モデルは、特に微調整後のTD分類タスクのための GPT のようなより大きな言語モデルよりも効果的であり、特定のTD検出タスクに対する効率的なモデル選択に関する洞察を提供する。
また、MCC、AUC ROC、リコール、F1スコアなどのメトリクスを用いて一般化能力を評価し、モデルの有効性、微調整の影響、相対的なパフォーマンスに焦点を当てた。
アウト・オブ・ディストリビューションと実世界の産業データセットに対するアプローチを検証することで、ソフトウェアプロジェクトの多様な性質に対処し、実用的な適用性を確保します。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Towards Estimating Transferability using Hard Subsets [25.86053764521497]
HASTEは、ターゲットデータのより厳しいサブセットのみを用いて、ソースモデルの特定のターゲットタスクへの転送可能性を推定する新しい戦略である。
HASTEは既存の転送可能性測定値と組み合わせて信頼性を向上させることができることを示す。
複数のソースモデルアーキテクチャ、ターゲットデータセット、トランスファー学習タスクにまたがる実験結果から、HASTEの修正されたメトリクスは、一貫して、あるいは、アートトランスファービリティーメトリクスの状態と同等であることが示された。
論文 参考訳(メタデータ) (2023-01-17T14:50:18Z) - Transfer learning for conflict and duplicate detection in software requirement pairs [0.5359378066251386]
ソフトウェアプロジェクトの成功には、ソフトウェア要件の一貫性と全体的な表現が重要です。
本研究では,ソフトウェア要件仕様の矛盾や重複を自動的に識別することで,ソフトウェア開発プロセスの効率を向上させることを目的とする。
コンフリクトと重複識別タスクのために,Sentence-BERTとBiエンコーダを組み込んだ新しいトランスフォーマーアーキテクチャSR-BERTを設計する。
論文 参考訳(メタデータ) (2023-01-09T22:47:12Z) - Prototype-guided Cross-task Knowledge Distillation for Large-scale
Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。
本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文 参考訳(メタデータ) (2022-12-26T15:00:42Z) - Towards Goal, Feasibility, and Diversity-Oriented Deep Generative Models
in Design [4.091593765662773]
我々は、パフォーマンス、実現可能性、多様性、目標達成を同時に最適化する最初のDeep Generative Modelを提案する。
異なるデータ型のスキュー・マルチモーダルデータを用いた多目的自転車フレーム設計問題に対して, 提案手法を検証した。
論文 参考訳(メタデータ) (2022-06-14T20:57:23Z) - Design Target Achievement Index: A Differentiable Metric to Enhance Deep
Generative Models in Multi-Objective Inverse Design [4.091593765662773]
設計目標達成指標(Design Target Achievement Index, DTAI)は、設計者が指定した最小パフォーマンス目標を達成するための設計能力を評価する、微分可能で調整可能な指標である。
DTAIをPaDGAN(Performance-Augmented Diverse GAN)に適用し,ベースラインのDeep Generative Modelよりも優れた生成性能を示す。
論文 参考訳(メタデータ) (2022-05-06T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。