論文の概要: The Early Bird Catches the Worm: Better Early Life Cycle Defect
Predictors
- arxiv url: http://arxiv.org/abs/2105.11082v1
- Date: Mon, 24 May 2021 03:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:24:26.277662
- Title: The Early Bird Catches the Worm: Better Early Life Cycle Defect
Predictors
- Title(参考訳): 早鳥が寄生虫を捕まえる: 早期のライフサイクル欠陥予測装置
- Authors: N.C. Shrikanth and Tim Menzies
- Abstract要約: 240のGitHubプロジェクトでは、そのデータの情報はプロジェクトの初期の部分に向かって行き詰まっている。
最初の150のコミットから学んだ欠陥予測モデルは、最先端の代替手段よりもうまく機能する。
- 参考スコア(独自算出の注目度): 23.22715542777918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Before researchers rush to reason across all available data, they should
first check if the information is densest within some small region. We say this
since, in 240 GitHub projects, we find that the information in that data
``clumps'' towards the earliest parts of the project. In fact, a defect
prediction model learned from just the first 150 commits works as well, or
better than state-of-the-art alternatives. Using just this early life cycle
data, we can build models very quickly (using weeks, not months, of CPU time).
Also, we can find simple models (with just two features) that generalize to
hundreds of software projects. Based on this experience, we warn that prior
work on generalizing software engineering defect prediction models may have
needlessly complicated an inherently simple process. Further, prior work that
focused on later-life cycle data now needs to be revisited since their
conclusions were drawn from relatively uninformative regions. Replication note:
all our data and scripts are online at
https://github.com/snaraya7/early-defect-prediction-tse.
- Abstract(参考訳): 研究者が利用可能なすべてのデータを分析するために急ぐ前に、まず、ある小さな領域で情報が最も密集しているかどうかを確認する必要がある。
なぜなら、240のgithubプロジェクトでは、そのデータ ``clumps''' の情報はプロジェクトの初期の部分に向けられているからです。
実際、最初の150コミットから学んだ欠陥予測モデルも、最先端の代替案よりもうまく機能しています。
この初期のライフサイクルデータだけで、モデルを(数ヶ月ではなく数週間で)非常に迅速に構築できます。
また、数百のソフトウェアプロジェクトに一般化するシンプルなモデル(2つの機能のみ)を見つけることができます。
この経験に基づいて、ソフトウェアエンジニアリングの欠陥予測モデルを一般化する以前の作業は、本質的に単純なプロセスが必然的に複雑であったかもしれないと警告する。
さらに, 後生サイクルデータに着目した先行研究は, 比較的非形式的な領域から結論が導かれたため, 再検討する必要がある。
レプリケーション: 当社のデータとスクリプトはすべて、https://github.com/snaraya7/early-defect-prediction-tseでオンラインです。
関連論文リスト
- More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。
現在のモデルは相変わらず不満足な精度に悩まされている。
より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文 参考訳(メタデータ) (2024-07-29T13:24:55Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - Learning from Very Little Data: On the Value of Landscape Analysis for
Predicting Software Project Health [13.19204187502255]
本報告では、ニSNEAKの健康計画への応用についてのみ検討する。しかしながら、この手法が幅広い問題に適用されるのを防ぐため、原則として何も見つからない。
論文 参考訳(メタデータ) (2023-01-16T19:27:16Z) - IRJIT: A Simple, Online, Information Retrieval Approach for Just-In-Time Software Defect Prediction [10.084626547964389]
Just-in-Timeソフトウェア欠陥予測(JIT-SDP)は、コミットチェックイン時にそれらを特定することによって、ソフトウェアへの欠陥の導入を防止する。
現在のソフトウェア欠陥予測アプローチは、変更メトリクスなどの手作業による機能に依存しており、マシンラーニングやディープラーニングモデルのトレーニングにコストがかかる。
我々は,ソースコード上の情報検索を利用して,過去のバグやクリーンなコミットと類似性に基づいて,新しいコミットをバグやクリーンとしてラベル付けするIRJITという手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:54:53Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - On Anytime Learning at Macroscale [33.674452784463774]
多くの実用的なアプリケーションでは、データが一度に到着するのではなく、時間の経過とともにバッチになる。
欲求予測器は、これらが利用可能になったらすぐにバッチでトレーニングすることで、非自明な予測を生成することができるが、将来のデータの準最適利用も可能かもしれない。
荒々しい予測器は、複数のバッチをより大きなデータセットに集約するのに長い時間を要するが、最終的にははるかに優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2021-06-17T14:45:22Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Early Life Cycle Software Defect Prediction. Why? How? [37.48549087467758]
私たちは84ヶ月間、何百もの人気のあるGitHubプロジェクトを分析しました。
これらのプロジェクト全体で、欠陥のほとんどはライフサイクルのごく初期段階に発生します。
これらの結果が、他の研究者たちに、自分たちの仕事に"単純さ優先"アプローチを採用するよう促すことを願っています。
論文 参考訳(メタデータ) (2020-11-26T00:13:52Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。