論文の概要: ApacheJIT: A Large Dataset for Just-In-Time Defect Prediction
- arxiv url: http://arxiv.org/abs/2203.00101v1
- Date: Mon, 28 Feb 2022 21:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:48:27.089334
- Title: ApacheJIT: A Large Dataset for Just-In-Time Defect Prediction
- Title(参考訳): ApacheJIT: ジャストインタイムの欠陥予測のための大規模なデータセット
- Authors: Hossein Keshavarz and Meiyappan Nagappan
- Abstract要約: ApacheJITは、人気のあるApacheプロジェクトでクリーンでバグを誘発するソフトウェア変更で構成されている。
大量のコミットを持つことで、ApacheJITは機械学習モデルに適したデータセットになる。
元のデータセットに加えて、慎重に選択されたトレーニングとテストセットを示し、機械学習モデルのトレーニングと評価に使用することを推奨する。
- 参考スコア(独自算出の注目度): 3.967221498592379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present ApacheJIT, a large dataset for Just-In-Time defect
prediction. ApacheJIT consists of clean and bug-inducing software changes in
popular Apache projects. ApacheJIT has a total of 106,674 commits (28,239
bug-inducing and 78,435 clean commits). Having a large number of commits makes
ApacheJIT a suitable dataset for machine learning models, especially deep
learning models that require large training sets to effectively generalize the
patterns present in the historical data to future data. In addition to the
original dataset, we also present carefully selected training and test sets
that we recommend to be used in training and evaluating machine learning
models.
- Abstract(参考訳): 本稿では,ジャストインタイム欠陥予測のための大規模データセットapachejitを提案する。
ApacheJITは、人気のあるApacheプロジェクトでクリーンでバグを誘発するソフトウェア変更で構成されている。
ApacheJITのコミット数は106,674件(28,239件、クリーンコミット78,435件)である。
大量のコミットを持つことで、ApacheJITは機械学習モデル、特に、過去のデータに存在するパターンを将来的なデータに効果的に一般化するために大規模なトレーニングセットを必要とするディープラーニングモデルに適したデータセットになる。
元のデータセットに加えて、慎重に選択されたトレーニングとテストセットを示し、機械学習モデルのトレーニングと評価に使用することを推奨する。
関連論文リスト
- Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - Defectors: A Large, Diverse Python Dataset for Defect Prediction [5.079750706023254]
私たちは、ジャスト・イン・タイムとラインレベルの欠陥予測のための大規模なデータセットであるDefectorsを紹介します。
Defectorsは$approx$213Kのソースコードファイルで構成される。
これらのプロジェクトは、機械学習、自動化、モノのインターネットを含む18の異なるドメインから成り立っている。
論文 参考訳(メタデータ) (2023-03-08T17:23:24Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - ManyTypes4Py: A Benchmark Python Dataset for Machine Learning-based Type
Inference [9.384801062680786]
ManyTypes4Pyは、機械学習(ML)ベースの型推論のための大きなPythonデータセットである。
データセットには合計5,382のPythonプロジェクトと869K以上の型アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-04-10T08:10:06Z) - Text Classification Using Hybrid Machine Learning Algorithms on Big Data [0.0]
本研究では,2つの教師付き機械学習アルゴリズムとテキストマイニング技術を組み合わせてハイブリッドモデルを生成する。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のNa"ive BayesとSVMモデルに対して96.76%の精度を示した。
論文 参考訳(メタデータ) (2021-03-30T19:02:48Z) - Does chronology matter in JIT defect prediction? A Partial Replication
Study [0.0]
コード変更プロパティがJITモデルに与える影響を経時的に調査する。
また、最新のデータと利用可能なすべてのデータがJITモデルの性能に与える影響についても検討する。
論文 参考訳(メタデータ) (2021-03-05T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。