論文の概要: Defectors: A Large, Diverse Python Dataset for Defect Prediction
- arxiv url: http://arxiv.org/abs/2303.04738v4
- Date: Tue, 25 Jul 2023 05:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:06:50.135359
- Title: Defectors: A Large, Diverse Python Dataset for Defect Prediction
- Title(参考訳): Defectors: 欠陥予測のための大規模なPythonデータセット
- Authors: Parvez Mahbub and Ohiduzzaman Shuvo and Mohammad Masudur Rahman
- Abstract要約: 私たちは、ジャスト・イン・タイムとラインレベルの欠陥予測のための大規模なデータセットであるDefectorsを紹介します。
Defectorsは$approx$213Kのソースコードファイルで構成される。
これらのプロジェクトは、機械学習、自動化、モノのインターネットを含む18の異なるドメインから成り立っている。
- 参考スコア(独自算出の注目度): 5.079750706023254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Defect prediction has been a popular research topic where machine learning
(ML) and deep learning (DL) have found numerous applications. However, these
ML/DL-based defect prediction models are often limited by the quality and size
of their datasets. In this paper, we present Defectors, a large dataset for
just-in-time and line-level defect prediction. Defectors consists of $\approx$
213K source code files ($\approx$ 93K defective and $\approx$ 120K defect-free)
that span across 24 popular Python projects. These projects come from 18
different domains, including machine learning, automation, and
internet-of-things. Such a scale and diversity make Defectors a suitable
dataset for training ML/DL models, especially transformer models that require
large and diverse datasets. We also foresee several application areas of our
dataset including defect prediction and defect explanation.
Dataset link: https://doi.org/10.5281/zenodo.7708984
- Abstract(参考訳): 欠陥予測は、機械学習(ML)とディープラーニング(DL)が多くの応用を見出した、人気のある研究トピックである。
しかしながら、これらのML/DLベースの欠陥予測モデルは、データセットの品質とサイズによって制限されることが多い。
本稿では,ジャストインタイムおよびラインレベルの欠陥予測のための大規模データセットであるDefectorsを提案する。
defectorは、24の人気のあるpythonプロジェクトにわたって、約213kのソースコードファイル(約93kの欠陥と約120kの欠陥なし)で構成されている。
これらのプロジェクトは、機械学習、自動化、モノのインターネットを含む18の異なるドメインから成り立っている。
このようなスケールと多様性は、DefectorをML/DLモデルのトレーニングに適したデータセット、特に大規模で多様なデータセットを必要とするトランスフォーマーモデルにします。
また、欠陥予測や欠陥説明など、データセットのいくつかのアプリケーション領域も予測しています。
データセットリンク:https://doi.org/10.5281/zenodo.7708984
関連論文リスト
- Estimating Uncertainty with Implicit Quantile Network [0.0]
不確かさの定量化は多くの性能クリティカルなアプリケーションにおいて重要な部分である。
本稿では,アンサンブル学習やベイズニューラルネットワークなど,既存のアプローチに対する簡単な代替手段を提供する。
論文 参考訳(メタデータ) (2024-08-26T13:33:14Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Heterogenous Ensemble of Models for Molecular Property Prediction [55.91865861896012]
分子の異なるモーダル性を考える手法を提案する。
これらのモデルをHuberRegressorでアンサンブルします。
これにより、OGB Large-Scale Challenge (2022)の2textsuperscriptndエディションの勝利のソリューションが得られる。
論文 参考訳(メタデータ) (2022-11-20T17:25:26Z) - Machine learning models for prediction of droplet collision outcomes [8.223798883838331]
液滴衝突の結果を予測することは、広く研究されている現象である。
現在の物理学に基づく結果を予測するモデルは不十分である。
ML設定では、この問題は4つのクラスを持つ分類問題に直接変換される。
論文 参考訳(メタデータ) (2021-10-01T01:53:09Z) - Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.342984907651505]
機械学習(ML)予測APIはますます広く使われている。
モデル更新や再トレーニングのために、時間とともに変更することも可能だ。
MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。
論文 参考訳(メタデータ) (2021-07-29T17:41:53Z) - Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。
このような情報をPythonのコンテキストで取得する上での課題について論じる。
ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文 参考訳(メタデータ) (2020-01-07T02:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。