論文の概要: Characterizing instance hardness in classification and regression
problems
- arxiv url: http://arxiv.org/abs/2212.01897v1
- Date: Sun, 4 Dec 2022 19:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:09:29.889904
- Title: Characterizing instance hardness in classification and regression
problems
- Title(参考訳): 分類と回帰問題におけるインスタンスハードネスの特徴化
- Authors: Gustavo P. Torquette and Victor S. Nunes and Pedro Y. A. Paiva and
Louren\c{c}o B. C. Neto and Ana C. Lorena
- Abstract要約: 本稿では,データセットのどのインスタンスがラベルを正確に予測しにくいかを特徴付けるメタ機能について述べる。
分類問題と回帰問題の両方が考慮されている。
すべての実装を含むPythonパッケージも提供されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Some recent pieces of work in the Machine Learning (ML) literature have
demonstrated the usefulness of assessing which observations are hardest to have
their label predicted accurately. By identifying such instances, one may
inspect whether they have any quality issues that should be addressed. Learning
strategies based on the difficulty level of the observations can also be
devised. This paper presents a set of meta-features that aim at characterizing
which instances of a dataset are hardest to have their label predicted
accurately and why they are so, aka instance hardness measures. Both
classification and regression problems are considered. Synthetic datasets with
different levels of complexity are built and analyzed. A Python package
containing all implementations is also provided.
- Abstract(参考訳): 機械学習(ML)文学における最近の研究は、どの観察がどのラベルを正確に予測することが最も困難であるかを評価するのに有用であることを示した。
このようなインスタンスを特定することで、対処すべき品質上の問題があるかどうかを検査することができる。
観察の難易度に基づく学習戦略も考案できる。
本稿では,データセットのどのインスタンスが,そのラベルを正確に予測することが最も難しいか,なぜそれがそうであるのかを特徴付けることを目的としたメタ機能セット,すなわちインスタンスのハードネス尺度を提案する。
分類問題と回帰問題の両方が考慮される。
複雑さのレベルが異なる合成データセットを構築し、分析する。
すべての実装を含むPythonパッケージも提供されている。
関連論文リスト
- Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - PyHard: a novel tool for generating hardness embeddings to support
data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。
ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。
我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文 参考訳(メタデータ) (2021-09-29T14:08:26Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。
YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。
我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文 参考訳(メタデータ) (2020-10-14T16:26:13Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - Revisiting Data Complexity Metrics Based on Morphology for Overlap and
Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular
Problems Prospect [9.666866159867444]
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。
クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
論文 参考訳(メタデータ) (2020-07-15T18:21:13Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。