論文の概要: HardVis: Visual Analytics to Handle Instance Hardness Using
Undersampling and Oversampling Techniques
- arxiv url: http://arxiv.org/abs/2203.15753v1
- Date: Tue, 29 Mar 2022 17:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 13:33:06.490071
- Title: HardVis: Visual Analytics to Handle Instance Hardness Using
Undersampling and Oversampling Techniques
- Title(参考訳): HardVis:アンダーサンプリングとオーバーサンプリング技術を使ってインスタンスのハードネスを処理するビジュアルアナリティクス
- Authors: Angelos Chatzimparmpas, Fernando V. Paulovich, Andreas Kerren
- Abstract要約: HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
- 参考スコア(独自算出の注目度): 74.09665819220567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the tremendous advances in machine learning (ML), training with
imbalanced data still poses challenges in many real-world applications. Among a
series of diverse techniques to solve this problem, sampling algorithms are
regarded as an efficient solution. However, the problem is more fundamental,
with many works emphasizing the importance of instance hardness. This issue
refers to the significance of managing unsafe or potentially noisy instances
that are more likely to be misclassified and serve as the root cause of poor
classification performance. This paper introduces HardVis, a visual analytics
system designed to handle instance hardness mainly in imbalanced classification
scenarios. Our proposed system assists users in visually comparing different
distributions of data types, selecting types of instances based on local
characteristics that will later be affected by the active sampling method, and
validating which suggestions from undersampling or oversampling techniques are
beneficial for the ML model. Additionally, rather than uniformly
undersampling/oversampling a specific class, we allow users to find and sample
easy and difficult to classify training instances from all classes. Users can
explore subsets of data from different perspectives to decide all those
parameters, while HardVis keeps track of their steps and evaluates the model's
predictive performance in a test set separately. The end result is a
well-balanced data set that boosts the predictive power of the ML model. The
efficacy and effectiveness of HardVis are demonstrated with a hypothetical
usage scenario and a use case. Finally, we also look at how useful our system
is based on feedback we received from ML experts.
- Abstract(参考訳): 機械学習(ML)の飛躍的な進歩にもかかわらず、不均衡なデータによるトレーニングは、多くの現実世界のアプリケーションで依然として課題となっている。
この問題を解決するための様々な手法のうち、サンプリングアルゴリズムは効率的な解と見なされている。
しかし、問題はより根本的なものであり、多くの作品がインスタンスのハードネスの重要性を強調している。
この問題とは、分類が間違っており、分類性能の低下の根本原因となる可能性のある、安全でない、あるいはうるさいインスタンスを管理することの重要性を指す。
本稿では,不均衡な分類シナリオを中心に,インスタンスのハードネスを処理するビジュアル分析システムhardvisについて紹介する。
提案システムでは,異なるデータ型を視覚的に比較し,後にアクティブサンプリング法で影響を受ける局所的特徴に基づいてインスタンスの種類を選定し,アンダーサンプリングやオーバーサンプリングによる提案がmlモデルに有用かどうかを検証する。
さらに、特定のクラスを一様にアンサンプ/オーバーサンプリングする代わりに、ユーザーは簡単にサンプルを見つけることができ、すべてのクラスからトレーニングインスタンスを分類することは困難です。
ユーザーは異なる視点からデータのサブセットを探索してパラメータを決定することができるが、hardvisはそれぞれのステップを追跡し、テストセットでモデルの予測性能を評価する。
最終的な結果は、MLモデルの予測能力を高めるためのバランスのとれたデータセットである。
ハードビスの有効性と有効性は仮説的な使用シナリオとユースケースで示される。
最後に、MLの専門家から受け取ったフィードバックに基づいて、私たちのシステムがいかに有用かについても調べる。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。
そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。
提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-19T17:59:39Z) - Dynamic Policy-Driven Adaptive Multi-Instance Learning for Whole Slide
Image Classification [26.896926631411652]
マルチインスタンスラーニング (MIL) は, バッグや疑似バッグを用いた病理組織像全体(WSI)解析において, 優れた性能を示した。
既存のMILベースの技術は、少なくとも1つ以上の問題に悩まされている: 1) 多数のインスタンスに対して高いストレージと集中的な事前処理を必要とすること(サンプリング)、2) バッグラベルを予測するための限られた知識を持つ潜在的な過剰適合(機能表現)、3) 擬似バグカウントと事前バイアスはモデルの堅牢性と一般化可能性(意思決定)に影響を与える。
論文 参考訳(メタデータ) (2024-03-09T04:43:24Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Minority Class Oversampling for Tabular Data with Deep Generative Models [4.976007156860967]
オーバーサンプリングによる非バランスな分類タスクの性能向上を図るために, 深層生成モデルを用いて現実的なサンプルを提供する能力について検討した。
実験の結果,サンプリング手法は品質に影響を与えないが,実行環境は様々であることがわかった。
また、性能指標の点でも改善が重要であるが、絶対的な点では小さな点がしばしば見られる。
論文 参考訳(メタデータ) (2020-05-07T21:35:57Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。