論文の概要: HardVis: Visual Analytics to Handle Instance Hardness Using
Undersampling and Oversampling Techniques
- arxiv url: http://arxiv.org/abs/2203.15753v1
- Date: Tue, 29 Mar 2022 17:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:33:06.490071
- Title: HardVis: Visual Analytics to Handle Instance Hardness Using
Undersampling and Oversampling Techniques
- Title(参考訳): HardVis:アンダーサンプリングとオーバーサンプリング技術を使ってインスタンスのハードネスを処理するビジュアルアナリティクス
- Authors: Angelos Chatzimparmpas, Fernando V. Paulovich, Andreas Kerren
- Abstract要約: HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
- 参考スコア(独自算出の注目度): 74.09665819220567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous advances in machine learning (ML), training with
imbalanced data still poses challenges in many real-world applications. Among a
series of diverse techniques to solve this problem, sampling algorithms are
regarded as an efficient solution. However, the problem is more fundamental,
with many works emphasizing the importance of instance hardness. This issue
refers to the significance of managing unsafe or potentially noisy instances
that are more likely to be misclassified and serve as the root cause of poor
classification performance. This paper introduces HardVis, a visual analytics
system designed to handle instance hardness mainly in imbalanced classification
scenarios. Our proposed system assists users in visually comparing different
distributions of data types, selecting types of instances based on local
characteristics that will later be affected by the active sampling method, and
validating which suggestions from undersampling or oversampling techniques are
beneficial for the ML model. Additionally, rather than uniformly
undersampling/oversampling a specific class, we allow users to find and sample
easy and difficult to classify training instances from all classes. Users can
explore subsets of data from different perspectives to decide all those
parameters, while HardVis keeps track of their steps and evaluates the model's
predictive performance in a test set separately. The end result is a
well-balanced data set that boosts the predictive power of the ML model. The
efficacy and effectiveness of HardVis are demonstrated with a hypothetical
usage scenario and a use case. Finally, we also look at how useful our system
is based on feedback we received from ML experts.
- Abstract(参考訳): 機械学習(ML)の飛躍的な進歩にもかかわらず、不均衡なデータによるトレーニングは、多くの現実世界のアプリケーションで依然として課題となっている。
この問題を解決するための様々な手法のうち、サンプリングアルゴリズムは効率的な解と見なされている。
しかし、問題はより根本的なものであり、多くの作品がインスタンスのハードネスの重要性を強調している。
この問題とは、分類が間違っており、分類性能の低下の根本原因となる可能性のある、安全でない、あるいはうるさいインスタンスを管理することの重要性を指す。
本稿では,不均衡な分類シナリオを中心に,インスタンスのハードネスを処理するビジュアル分析システムhardvisについて紹介する。
提案システムでは,異なるデータ型を視覚的に比較し,後にアクティブサンプリング法で影響を受ける局所的特徴に基づいてインスタンスの種類を選定し,アンダーサンプリングやオーバーサンプリングによる提案がmlモデルに有用かどうかを検証する。
さらに、特定のクラスを一様にアンサンプ/オーバーサンプリングする代わりに、ユーザーは簡単にサンプルを見つけることができ、すべてのクラスからトレーニングインスタンスを分類することは困難です。
ユーザーは異なる視点からデータのサブセットを探索してパラメータを決定することができるが、hardvisはそれぞれのステップを追跡し、テストセットでモデルの予測性能を評価する。
最終的な結果は、MLモデルの予測能力を高めるためのバランスのとれたデータセットである。
ハードビスの有効性と有効性は仮説的な使用シナリオとユースケースで示される。
最後に、MLの専門家から受け取ったフィードバックに基づいて、私たちのシステムがいかに有用かについても調べる。
関連論文リスト
- Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Stop Oversampling for Class Imbalance Learning: A Critical Review [0.9208007322096533]
オーバーサンプリングは、不均衡なデータセットから学ぶことの難しさを克服するために採用されている。
オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。
我々は,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較し,新しいオーバーサンプリング評価システムを開発した。
論文 参考訳(メタデータ) (2022-02-04T15:11:11Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Active Learning for Skewed Data Sets [25.866341631677688]
重度のクラス不均衡(スキュー)と少数の初期訓練データという2つの特徴を持つ問題に焦点をあてる。
本研究では,現在ラベル付けされているトレーニング例を通じて利用可能な知識を活用できるハイブリッド能動学習アルゴリズム(HAL)を提案する。
論文 参考訳(メタデータ) (2020-05-23T01:50:19Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。