論文の概要: Does chronology matter in JIT defect prediction? A Partial Replication
Study
- arxiv url: http://arxiv.org/abs/2103.03506v1
- Date: Fri, 5 Mar 2021 07:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:39:09.687093
- Title: Does chronology matter in JIT defect prediction? A Partial Replication
Study
- Title(参考訳): JIT欠陥予測に時系列は重要ですか?
部分的複製研究
- Authors: Hadi Jahanshahi, Dhanya Jothimani, Ay\c{s}e Ba\c{s}ar, Mucahit Cevik
- Abstract要約: コード変更プロパティがJITモデルに与える影響を経時的に調査する。
また、最新のデータと利用可能なすべてのデータがJITモデルの性能に与える影響についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Just-In-Time (JIT) models detect the fix-inducing changes (or defect-inducing
changes). These models are designed based on the assumption that past code
change properties are similar to future ones. However, as the system evolves,
the expertise of developers and/or the complexity of the system also changes.
In this work, we aim to investigate the effect of code change properties on
JIT models over time. We also study the impact of using recent data as well as
all available data on the performance of JIT models. Further, we analyze the
effect of weighted sampling on the performance of fix-inducing properties of
JIT models. For this purpose, we used datasets from Eclipse JDT, Mozilla,
Eclipse Platform, and PostgreSQL.
We used five families of change-code properties such as size, diffusion,
history, experience, and purpose. We used Random Forest to train and test the
JIT model and Brier Score and the area under the ROC curve for performance
measurement.
Our paper suggests that the predictive power of JIT models does not change
over time. Furthermore, we observed that the chronology of data in JIT defect
prediction models can be discarded by considering all the available data. On
the other hand, the importance score of families of code change properties is
found to oscillate over time.
To mitigate the impact of the evolution of code change properties, it is
recommended to use a weighted sampling approach in which more emphasis is
placed upon the changes occurring closer to the current time. Moreover, since
properties such as "Expertise of the Developer" and "Size" evolve with time,
the models obtained from old data may exhibit different characteristics
compared to those employing the newer dataset. Hence, practitioners should
constantly retrain JIT models to include fresh data.
- Abstract(参考訳): Just-In-Time(JIT)モデルは、修正誘発変更(または欠陥誘発変更)を検出する。
これらのモデルは、過去のコード変更プロパティが将来のものと似ているという仮定に基づいて設計されている。
しかし、システムが進化するにつれて、開発者の専門知識やシステムの複雑さも変化する。
本研究では,JITモデルに対するコード変更プロパティの影響を経時的に調査する。
また、最新のデータと利用可能なすべてのデータがJITモデルの性能に与える影響についても検討する。
さらに、重み付きサンプリングがJITモデルの修正誘導特性の性能に及ぼす影響を分析します。
この目的で、eclipse jdt、mozilla、eclipse platform、postgresqlのデータセットを使用しました。
サイズ、拡散、履歴、経験、目的といった5種類の変更コードプロパティを使用しました。
我々はRandom Forestを用いてJITモデルのトレーニングとテストを行い、Brier ScoreとROC曲線下の領域を性能測定に使用した。
本論文ではJITモデルの予測能力が経時的に変化しないことを示唆する。
さらに,jit欠陥予測モデルにおけるデータの時系列を,利用可能なすべてのデータを考慮して破棄できることを確認した。
一方、コード変更プロパティのファミリーの重要性スコアは、時間の経過とともに振動することがわかっています。
コード変更特性の進化の影響を軽減するため、現在の時間に近い変化にもっと重点を置く重み付けサンプリングアプローチを使用することが推奨されている。
また、"Expertise of the Developer"や"Size"などのプロパティは時間とともに進化するため、古いデータから得られたモデルは、新しいデータセットを使用するものと異なる特性を示す可能性があります。
したがって、実践者は新鮮なデータを含むようにJITモデルを常に再訓練する必要がある。
関連論文リスト
- What's New in My Data? Novelty Exploration via Contrastive Generation [31.33791825286853]
創成による新規発見の課題(CGE)について紹介する。
CGEは、これらの特性を示す例を生成することによって、微調整データセットの新たな特性を特定することを目的としている。
本実験では,CGEが有害な言語や新しい自然言語,プログラミング言語などの新規なコンテンツの検出に有効であることを実証した。
論文 参考訳(メタデータ) (2024-10-18T15:24:05Z) - An Empirical Study on JIT Defect Prediction Based on BERT-style Model [5.098350174933033]
本研究では,細粒化プロセスの設定がJIT欠陥予測のためのBERT型事前学習モデルに及ぼす影響について検討する。
以上の結果から,BERTモデルにおける第1エンコーダ層の役割が明らかとなった。
これらの知見を組み合わせて,LoRAに基づくコスト効率の高い微調整手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T09:41:55Z) - Probing the Robustness of Time-series Forecasting Models with
CounterfacTS [1.823020744088554]
我々は,時系列予測タスクにおけるディープラーニングモデルの堅牢性を調査するツールであるCounterfacTSを提示し,公開する。
CounterfacTSにはユーザフレンドリーなインターフェースがあり、時系列データとその予測を視覚化、比較、定量化することができる。
論文 参考訳(メタデータ) (2024-03-06T07:34:47Z) - A study on the impact of pre-trained model on Just-In-Time defect
prediction [10.205110163570502]
RoBERTaJIT、CodeBERTJIT、BARTJIT、PLBARTJIT、GPT2JIT、CodeGPTJITの6つのモデルを構築します。
本稿では,コミットコードとコミットメッセージを入力として使用する際のモデルの性能と,トレーニング効率とモデル分布の関係について検討する。
論文 参考訳(メタデータ) (2023-09-05T15:34:22Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Dataset Interfaces: Diagnosing Model Failures Using Controllable
Counterfactual Generation [85.13934713535527]
分散シフトは、機械学習モデルの主要な障害源である。
入力データセットとユーザが指定したシフトを与えられたフレームワークは、望ましいシフトを示すインスタンスを返す。
本稿では,このデータセットインターフェースをImageNetデータセットに適用することにより,分散シフトの多種多様さにまたがるモデル動作の学習が可能になることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:56:26Z) - Sketches for Time-Dependent Machine Learning [8.824033416765106]
時系列データは、それらを生成する基盤となるプロセスの変化にさらされる可能性がある。
我々は、現在のデータ分布とその時間的進化に関する情報を機械学習アルゴリズムに組み込む方法を提案する。
論文 参考訳(メタデータ) (2021-08-26T17:24:56Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。