論文の概要: Impact of Discretization Noise of the Dependent variable on Machine
Learning Classifiers in Software Engineering
- arxiv url: http://arxiv.org/abs/2202.06146v1
- Date: Sat, 12 Feb 2022 21:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 17:39:09.740579
- Title: Impact of Discretization Noise of the Dependent variable on Machine
Learning Classifiers in Software Engineering
- Title(参考訳): ソフトウェア工学における依存変数の離散化ノイズが機械学習分類器に与える影響
- Authors: Gopi Krishnan Rajbahadur, Shaowei Wang, Yasutaka Kamei, Ahmed E.
Hassan
- Abstract要約: 研究者は通常、連続依存変数を2つのターゲットクラスに分類し、人工的な離散化しきい値を導入する。
このような離散化は、人工しきい値に近いデータポイントのあいまいなクラス忠誠によってノイズを引き起こす可能性がある。
従来の研究では、識別ノイズが分類器に与える影響について明確な指示を与えていない。
- 参考スコア(独自算出の注目度): 13.840006058766766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Researchers usually discretize a continuous dependent variable into two
target classes by introducing an artificial discretization threshold (e.g.,
median). However, such discretization may introduce noise (i.e., discretization
noise) due to ambiguous class loyalty of data points that are close to the
artificial threshold. Previous studies do not provide a clear directive on the
impact of discretization noise on the classifiers and how to handle such noise.
In this paper, we propose a framework to help researchers and practitioners
systematically estimate the impact of discretization noise on classifiers in
terms of its impact on various performance measures and the interpretation of
classifiers. Through a case study of 7 software engineering datasets, we find
that: 1) discretization noise affects the different performance measures of a
classifier differently for different datasets; 2) Though the interpretation of
the classifiers are impacted by the discretization noise on the whole, the top
3 most important features are not affected by the discretization noise.
Therefore, we suggest that practitioners and researchers use our framework to
understand the impact of discretization noise on the performance of their built
classifiers and estimate the exact amount of discretization noise to be
discarded from the dataset to avoid the negative impact of such noise.
- Abstract(参考訳): 研究者は通常、連続依存変数を2つのターゲットクラスに識別し、人工的離散化しきい値(例えば中央値)を導入する。
しかし、そのような離散化は、人工しきい値に近いデータポイントのあいまいなクラス忠誠によってノイズ(すなわち、離散化ノイズ)を引き起こす可能性がある。
これまでの研究では、離散化ノイズが分類器に与える影響とその処理方法に関する明確な指示は示されていない。
本稿では,識別ノイズが分類器に与える影響を,様々な性能指標や分類器の解釈に与える影響を,研究者や実践者が体系的に評価するための枠組みを提案する。
7つのソフトウェアエンジニアリングデータセットのケーススタディを通じて、次のことが分かりました。
1)識別ノイズは,異なるデータセットに対して異なる分類器の性能指標に影響を与える。
2) 分類器の解釈は全体としては離散化ノイズの影響を受けているが, 最上位3つの特徴は離散化ノイズの影響を受けない。
そこで,本研究の実践者や研究者は,識別ノイズが構築した分類器の性能に与える影響を把握し,そのノイズの負の影響を避けるために,データセットから捨てるべき識別ノイズの正確な量を推定する。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Robust Product Classification with Instance-Dependent Noise [2.0661025590877777]
大規模なEコマース製品データ(商品項目を誤ったカテゴリに配置する)のノイズラベルは、製品分類タスクにおいて重要な問題である。
製品タイトル分類の性能に及ぼすインスタンス依存ノイズの影響について検討する。
論文 参考訳(メタデータ) (2022-09-14T21:45:14Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Label noise detection under the Noise at Random model with ensemble
filters [5.994719700262245]
本研究では、2つの異なる雑音モデルの下でのアンサンブルノイズ検出の性能について検討する。
データセットで観測される全雑音レベルが変化するため,クラス分布がノイズ検出性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2021-12-02T21:49:41Z) - Combating Noise: Semi-supervised Learning by Region Uncertainty
Quantification [55.23467274564417]
現在の手法は、擬似ラベルによって生成されるノイズの多い領域によって容易に妨げられる。
領域の不確実性を定量化して雑音耐性半教師付き学習を提案する。
PASCAL VOCとMS COCOの併用実験により,本手法の異常な性能を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:23:42Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Learning Noise Transition Matrix from Only Noisy Labels via Total
Variation Regularization [88.91872713134342]
本稿では,雑音遷移行列を推定し,同時に分類器を学習する理論的基礎付け手法を提案する。
提案手法の有効性を,ベンチマークおよび実世界のデータセットを用いた実験により示す。
論文 参考訳(メタデータ) (2021-02-04T05:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。