Fugu-MT 論文翻訳(概要): Defectors: A Large, Diverse Python Dataset for Defect Prediction

論文の概要: Defectors: A Large, Diverse Python Dataset for Defect Prediction

arxiv url: http://arxiv.org/abs/2303.04738v4
Date: Tue, 25 Jul 2023 05:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 13:06:50.135359
Title: Defectors: A Large, Diverse Python Dataset for Defect Prediction
Title（参考訳）: Defectors: 欠陥予測のための大規模なPythonデータセット
Authors: Parvez Mahbub and Ohiduzzaman Shuvo and Mohammad Masudur Rahman
Abstract要約: 私たちは、ジャスト・イン・タイムとラインレベルの欠陥予測のための大規模なデータセットであるDefectorsを紹介します。 Defectorsは$approx$213Kのソースコードファイルで構成される。これらのプロジェクトは、機械学習、自動化、モノのインターネットを含む18の異なるドメインから成り立っている。
参考スコア（独自算出の注目度）: 5.079750706023254
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Defect prediction has been a popular research topic where machine learning (ML) and deep learning (DL) have found numerous applications. However, these ML/DL-based defect prediction models are often limited by the quality and size of their datasets. In this paper, we present Defectors, a large dataset for just-in-time and line-level defect prediction. Defectors consists of $\approx$ 213K source code files ($\approx$ 93K defective and $\approx$ 120K defect-free) that span across 24 popular Python projects. These projects come from 18 different domains, including machine learning, automation, and internet-of-things. Such a scale and diversity make Defectors a suitable dataset for training ML/DL models, especially transformer models that require large and diverse datasets. We also foresee several application areas of our dataset including defect prediction and defect explanation. Dataset link: https://doi.org/10.5281/zenodo.7708984
Abstract（参考訳）: 欠陥予測は、機械学習(ML)とディープラーニング(DL)が多くの応用を見出した、人気のある研究トピックである。しかしながら、これらのML/DLベースの欠陥予測モデルは、データセットの品質とサイズによって制限されることが多い。本稿では,ジャストインタイムおよびラインレベルの欠陥予測のための大規模データセットであるDefectorsを提案する。 defectorは、24の人気のあるpythonプロジェクトにわたって、約213kのソースコードファイル(約93kの欠陥と約120kの欠陥なし)で構成されている。これらのプロジェクトは、機械学習、自動化、モノのインターネットを含む18の異なるドメインから成り立っている。このようなスケールと多様性は、DefectorをML/DLモデルのトレーニングに適したデータセット、特に大規模で多様なデータセットを必要とするトランスフォーマーモデルにします。また、欠陥予測や欠陥説明など、データセットのいくつかのアプリケーション領域も予測しています。データセットリンク:https://doi.org/10.5281/zenodo.7708984

関連論文リスト

LeakageDetector: An Open Source Data Leakage Analysis Tool in Machine Learning Pipelines [3.5453450990441238]
私たちの研究は、機械学習(ML)エンジニアがモデルでData Leakageのインスタンスを見つけて修正するのを助けることで、より良いコードを書くことを可能にすることを目的としています。 ML開発者は、コードにData Leakageを導入するのを避けるために、データをトレーニング、評価、テストセットに慎重に分離する必要がある。本稿では,MLコードのData Leakageのインスタンスを識別するPythonプラグインであるLEAKAGEDETECTORを開発し,リークの除去方法について提案する。
論文参考訳（メタデータ） (2025-03-18T20:53:44Z)
Exploring LLM Agents for Cleaning Tabular Machine Learning Datasets [19.844836459291546]
高品質でエラーのないデータセットは、信頼性、正確、偏見のない機械学習(ML)モデルを構築する上で重要な要素である。しかし、実世界のデータセットは、センサーの故障、データ入力ミス、複数のソースにわたる不適切なデータ統合によるエラーに悩まされることが多い。本研究では,Large Language Models (LLMs) が手作業によるデータクリーニングの負担軽減に有効かどうかを検討する。
論文参考訳（メタデータ） (2025-03-09T15:29:46Z)
Analysis of Zero Day Attack Detection Using MLP and XAI [0.0]
本稿では、侵入検知システム(IDS)を構築するための機械学習(ML)とディープラーニング(DL)に基づくアプローチについて分析する。 KDD99データセットは、ゼロデイ攻撃を検出するために、すべてのデータセットの中で最も研究されている。ベースラインMLモデル,重み付きMLモデル,重み付きMLモデル,重み付きMLモデルを含む,KDD99データセット上でトレーニングされた4層パーセプトロン(MLP)の性能を評価する。
論文参考訳（メタデータ） (2025-01-28T02:20:34Z)
Estimating Uncertainty with Implicit Quantile Network [0.0]
不確かさの定量化は多くの性能クリティカルなアプリケーションにおいて重要な部分である。本稿では,アンサンブル学習やベイズニューラルネットワークなど,既存のアプローチに対する簡単な代替手段を提供する。
論文参考訳（メタデータ） (2024-08-26T13:33:14Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文参考訳（メタデータ） (2023-12-09T04:43:49Z)
MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。 MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。 8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文参考訳（メタデータ） (2023-10-06T01:59:19Z)
Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文参考訳（メタデータ） (2023-06-05T04:34:54Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文参考訳（メタデータ） (2023-03-25T08:56:21Z)
Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。これらのモデルをHuberRegressorでアンサンブルします。これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文参考訳（メタデータ） (2022-11-20T17:25:26Z)
Machine learning models for prediction of droplet collision outcomes [8.223798883838331]
液滴衝突の結果を予測することは、広く研究されている現象である。現在の物理学に基づく結果を予測するモデルは不十分である。 ML設定では、この問題は4つのクラスを持つ分類問題に直接変換される。
論文参考訳（メタデータ） (2021-10-01T01:53:09Z)
Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.342984907651505]
機械学習(ML)予測APIはますます広く使われている。モデル更新や再トレーニングのために、時間とともに変更することも可能だ。 MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。
論文参考訳（メタデータ） (2021-07-29T17:41:53Z)
Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。このような情報をPythonのコンテキストで取得する上での課題について論じる。ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文参考訳（メタデータ） (2020-01-07T02:39:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。