Fugu-MT 論文翻訳(概要): Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study

論文の概要: Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study

arxiv url: http://arxiv.org/abs/2408.10529v3
Date: Thu, 22 Aug 2024 03:40:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 12:32:33.522561
Title: Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study
Title（参考訳）: ディープラーニングフレームワークにおけるアルゴリズム負債の自動検出:実証的研究
Authors: Emmanuel Iko-Ojo Simon, Chirath Hettiarachchi, Alex Potanin, Hanna Suominen, Fatemeh Fard,
Abstract要約: 以前の研究では、ML/DLモデルが、自己受け入れ技術的負債(SATD)と呼ばれるソースコードコメントから技術的負債を検出できることが示されている。我々の目標は、様々なML/DLモデルのAD検出性能を改善することである。
参考スコア（独自算出の注目度）: 5.6340045820686155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Context: Previous studies demonstrate that Machine or Deep Learning (ML/DL) models can detect Technical Debt from source code comments called Self-Admitted Technical Debt (SATD). Despite the importance of ML/DL in software development, limited studies focus on automated detection for new SATD types: Algorithm Debt (AD). AD detection is important because it helps to identify TD early, facilitating research, learning, and preventing the accumulation of issues related to model degradation and lack of scalability. Aim: Our goal is to improve AD detection performance of various ML/DL models. Method: We will perform empirical studies using approaches: TF-IDF, Count Vectorizer, Hash Vectorizer, and TD-indicative words to identify features that improve AD detection, using ML/DL classifiers with different data featurisations. We will use an existing dataset curated from seven DL frameworks where comments were manually classified as AD, Compatibility, Defect, Design, Documentation, Requirement, and Test Debt. We will explore various word embedding methods to further enrich features for ML models. These embeddings will be from models founded in DL such as ROBERTA, ALBERTv2, and large language models (LLMs): INSTRUCTOR and VOYAGE AI. We will enrich the dataset by incorporating AD-related terms, then train various ML/DL classifiers, Support Vector Machine, Logistic Regression, Random Forest, ROBERTA, and ALBERTv2.
Abstract（参考訳）: コンテキスト: これまでの研究は、機械学習(ML/DL)モデルが、SATD(Self-Admitted Technical Debt)と呼ばれるソースコードコメントからTechnical Debtを検出できることを示した。ソフトウェア開発におけるML/DLの重要性にもかかわらず、限定的な研究は、新しいSATDタイプの自動検出に焦点を当てている。 AD検出は、TDを早期に識別し、研究、学習を促進し、モデル劣化とスケーラビリティの欠如に関連する問題の蓄積を防止するために重要である。 Aim: ML/DLモデルのAD検出性能を改善することが目標です。方法: TF-IDF, Count Vectorizer, Hash Vectorizer, TD-indicative words を用いて, ML/DL分類器を用いて, AD検出を改善する特徴を特定する。 AD、互換性、欠陥、設計、ドキュメント、要求、テスト負債に手動で分類された7つのDLフレームワークから収集された既存のデータセットを使用します。 MLモデルの機能をさらに強化するために,様々な単語埋め込み手法について検討する。これらの埋め込みは、ROBERTA、ALBERTv2、および大規模な言語モデル(LLMs:INSTRUCTOR、VOYAGE AI)のようなDLで作成されたモデルから提供される。 AD関連用語を取り入れてデータセットを強化し、さまざまなML/DL分類器、サポートベクトルマシン、ロジスティック回帰、ランダムフォレスト、ROBERTA、ALBERTv2をトレーニングします。

関連論文リスト

DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Discrete Diffusion in Large Language and Multimodal Models: A Survey [56.31088116526825]
離散拡散言語モデル(dLLM)と離散拡散多モード言語モデル(dMLLM)の体系的調査を提供する。自己回帰(AR)モデルとは異なり、dLLMとdMLLMはマルチトークンの並列デコードパラダイムを採用している。我々は、dLLMとdMLLMの歴史的発展を辿り、基礎となる数学的枠組みを定式化し、代表モデルを分類する。
論文参考訳（メタデータ） (2025-06-16T17:59:08Z)
Analysis of Zero Day Attack Detection Using MLP and XAI [0.0]
本稿では、侵入検知システム(IDS)を構築するための機械学習(ML)とディープラーニング(DL)に基づくアプローチについて分析する。 KDD99データセットは、ゼロデイ攻撃を検出するために、すべてのデータセットの中で最も研究されている。ベースラインMLモデル,重み付きMLモデル,重み付きMLモデル,重み付きMLモデルを含む,KDD99データセット上でトレーニングされた4層パーセプトロン(MLP)の性能を評価する。
論文参考訳（メタデータ） (2025-01-28T02:20:34Z)
AD-LLM: Benchmarking Large Language Models for Anomaly Detection [50.57641458208208]
本稿では,大規模な言語モデルが異常検出にどのように役立つかを評価する最初のベンチマークであるAD-LLMを紹介する。我々は、ゼロショット検出、LLMの事前訓練された知識を用いて、タスク固有のトレーニングなしでADを実行すること、データ拡張、ADモデルを改善するために合成データとカテゴリ記述を生成すること、LLMを使用して教師なしADモデルを提案するモデル選択の3つの主要なタスクについて検討する。
論文参考訳（メタデータ） (2024-12-15T10:22:14Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Long-Tailed Anomaly Detection with Learnable Class Names [64.79139468331807]
性能評価のためのクラス不均衡とメトリクスのレベルが異なるデータセットをいくつか導入する。次に、データセットのクラス名に頼ることなく、複数の長い尾を持つクラスから欠陥を検出する新しい手法LTADを提案する。 LTADは、ほとんどの形式のデータセットの不均衡に対して最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2024-03-29T15:26:44Z)
Self-Admitted Technical Debt Detection Approaches: A Decade Systematic Review [5.670597842524448]
技術的負債 (Technical debt, TD) とは、ソフトウェア開発において、最適な設計やコード決定に関連する長期的なコストを表す用語である。開発者がこれらのトレードオフを明確に認めると、SATD(Self-Admitted Technical Debt)が発生する。 SATDの自動検出は、ますます重要な研究領域となっている。
論文参考訳（メタデータ） (2023-12-19T12:01:13Z)
DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。 DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文参考訳（メタデータ） (2023-09-07T17:55:01Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Data-Efficient and Interpretable Tabular Anomaly Detection [54.15249463477813]
本稿では,ホワイトボックスモデルクラスである一般化付加モデルを適用し,異常を検出する新しいフレームワークを提案する。さらに、提案フレームワークであるDIADは、ラベル付きデータの少量を組み込んで、半教師付き設定における異常検出性能をさらに向上させることができる。
論文参考訳（メタデータ） (2022-03-03T22:02:56Z)
From Model-driven to Data-driven: A Survey on Active Deep Learning [8.75286974962136]
アクティブ深層学習(adl)は、その予測者が深層モデルである場合に限り、基本的な学習者は予測者と呼ばれ、ラベル付けスキームはセレクタと呼ばれる。 ADLをモデル駆動型ADLとデータ駆動型ADLに分類する。データ駆動型adlandモデル駆動adlの利点と欠点を徹底的に分析する。
論文参考訳（メタデータ） (2021-01-25T07:49:41Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。