論文の概要: Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study
- arxiv url: http://arxiv.org/abs/2408.10529v2
- Date: Wed, 21 Aug 2024 07:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 11:50:43.221966
- Title: Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study
- Title(参考訳): ディープラーニングフレームワークにおけるアルゴリズム負債の自動検出:実証的研究
- Authors: Emmanuel Iko-Ojo Simon, Chirath Hettiarachchi, Alex Potanin, Hanna Suominen, Fatemeh Fard,
- Abstract要約: 最近の研究では、機械学習モデル(ML/DL)が、SATD(Self-Admitted Technical Debt)と呼ばれるソースコードコメントから技術的負債を検出できることが示されている。
我々の目標は、様々なML/DLモデルのAD検出性能を改善することである。
- 参考スコア(独自算出の注目度): 5.6340045820686155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Recent studies demonstrate that Machine or Deep Learning (ML/DL) models can detect Technical Debt from source code comments called Self-Admitted Technical Debt (SATD). Despite the importance of ML/DL in software development, limited studies focus on automated detection for new SATD types: Algorithm Debt (AD). AD detection is important because it helps to identify TD early, facilitating research, learning, and preventing the accumulation of issues related to model degradation and lack of scalability. Aim: Our goal is to improve AD detection performance of various ML/DL models. Method: We will perform empirical studies using approaches: TF-IDF, Count Vectorizer, Hash Vectorizer, and TD-indicative words to identify features that improve AD detection, using ML/DL classifiers with different data featurisations. We will use an existing dataset curated from seven DL frameworks where comments were manually classified as AD, Compatibility, Defect, Design, Documentation, Requirement, and Test Debt. We will explore various word embedding methods to further enrich features for ML models. These embeddings will be from models founded in DL such as ROBERTA, ALBERTv2, and large language models (LLMs): INSTRUCTOR and VOYAGE AI. We will enrich the dataset by incorporating AD-related terms, then train various ML/DL classifiers, Support Vector Machine, Logistic Regression, Random Forest, ROBERTA, and ALBERTv2.
- Abstract(参考訳): コンテキスト: 最近の研究は、機械学習(ML/DL)モデルがソースコードのコメントからSelf-Admitted Technical Debt(SATD)と呼ばれる技術的負債を検出できることを示した。
ソフトウェア開発におけるML/DLの重要性にもかかわらず、限定的な研究は、新しいSATDタイプの自動検出に焦点を当てている。
AD検出は、TDを早期に識別し、研究、学習を促進し、モデル劣化とスケーラビリティの欠如に関連する問題の蓄積を防止するために重要である。
Aim: ML/DLモデルのAD検出性能を改善することが目標です。
方法: TF-IDF, Count Vectorizer, Hash Vectorizer, TD-indicative words を用いて, ML/DL分類器を用いて, AD検出を改善する特徴を特定する。
AD、互換性、欠陥、設計、ドキュメント、要求、テスト負債に手動で分類された7つのDLフレームワークから収集された既存のデータセットを使用します。
MLモデルの機能をさらに強化するために,様々な単語埋め込み手法について検討する。
これらの埋め込みは、ROBERTA、ALBERTv2、および大規模な言語モデル(LLMs:INSTRUCTOR、VOYAGE AI)のようなDLで作成されたモデルから提供される。
AD関連用語を取り入れてデータセットを強化し、さまざまなML/DL分類器、サポートベクトルマシン、ロジスティック回帰、ランダムフォレスト、ROBERTA、ALBERTv2をトレーニングします。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Long-Tailed Anomaly Detection with Learnable Class Names [64.79139468331807]
性能評価のためのクラス不均衡とメトリクスのレベルが異なるデータセットをいくつか導入する。
次に、データセットのクラス名に頼ることなく、複数の長い尾を持つクラスから欠陥を検出する新しい手法LTADを提案する。
LTADは、ほとんどの形式のデータセットの不均衡に対して最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-03-29T15:26:44Z) - Self-Admitted Technical Debt Detection Approaches: A Decade Systematic Review [5.670597842524448]
技術的負債 (Technical debt, TD) とは、ソフトウェア開発において、最適な設計やコード決定に関連する長期的なコストを表す用語である。
開発者がこれらのトレードオフを明確に認めると、SATD(Self-Admitted Technical Debt)が発生する。
SATDの自動検出は、ますます重要な研究領域となっている。
論文 参考訳(メタデータ) (2023-12-19T12:01:13Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Data-Efficient and Interpretable Tabular Anomaly Detection [54.15249463477813]
本稿では,ホワイトボックスモデルクラスである一般化付加モデルを適用し,異常を検出する新しいフレームワークを提案する。
さらに、提案フレームワークであるDIADは、ラベル付きデータの少量を組み込んで、半教師付き設定における異常検出性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2022-03-03T22:02:56Z) - From Model-driven to Data-driven: A Survey on Active Deep Learning [8.75286974962136]
アクティブ深層学習(adl)は、その予測者が深層モデルである場合に限り、基本的な学習者は予測者と呼ばれ、ラベル付けスキームはセレクタと呼ばれる。
ADLをモデル駆動型ADLとデータ駆動型ADLに分類する。
データ駆動型adlandモデル駆動adlの利点と欠点を徹底的に分析する。
論文 参考訳(メタデータ) (2021-01-25T07:49:41Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。