Fugu-MT 論文翻訳(概要): Characterizing instance hardness in classification and regression problems

論文の概要: Characterizing instance hardness in classification and regression problems

arxiv url: http://arxiv.org/abs/2212.01897v1
Date: Sun, 4 Dec 2022 19:16:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 18:09:29.889904
Title: Characterizing instance hardness in classification and regression problems
Title（参考訳）: 分類と回帰問題におけるインスタンスハードネスの特徴化
Authors: Gustavo P. Torquette and Victor S. Nunes and Pedro Y. A. Paiva and Louren\c{c}o B. C. Neto and Ana C. Lorena
Abstract要約: 本稿では,データセットのどのインスタンスがラベルを正確に予測しにくいかを特徴付けるメタ機能について述べる。分類問題と回帰問題の両方が考慮されている。すべての実装を含むPythonパッケージも提供されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Some recent pieces of work in the Machine Learning (ML) literature have demonstrated the usefulness of assessing which observations are hardest to have their label predicted accurately. By identifying such instances, one may inspect whether they have any quality issues that should be addressed. Learning strategies based on the difficulty level of the observations can also be devised. This paper presents a set of meta-features that aim at characterizing which instances of a dataset are hardest to have their label predicted accurately and why they are so, aka instance hardness measures. Both classification and regression problems are considered. Synthetic datasets with different levels of complexity are built and analyzed. A Python package containing all implementations is also provided.
Abstract（参考訳）: 機械学習(ML)文学における最近の研究は、どの観察がどのラベルを正確に予測することが最も困難であるかを評価するのに有用であることを示した。このようなインスタンスを特定することで、対処すべき品質上の問題があるかどうかを検査することができる。観察の難易度に基づく学習戦略も考案できる。本稿では,データセットのどのインスタンスが,そのラベルを正確に予測することが最も難しいか,なぜそれがそうであるのかを特徴付けることを目的としたメタ機能セット,すなわちインスタンスのハードネス尺度を提案する。分類問題と回帰問題の両方が考慮される。複雑さのレベルが異なる合成データセットを構築し、分析する。すべての実装を含むPythonパッケージも提供されている。

関連論文リスト

Informative missingness and its implications in semi-supervised learning [2.5794915063815664]
半教師付き学習(SSL)はラベル付きデータと非ラベル付きデータの両方を用いて分類器を構成する。これは、有限混合モデルに対する可能性フレームワーク内で統計的に定式化できる不完全データ問題を定義する。このような情報不足をモデル化することは、実証的なSSLメソッドの振る舞いと可能性に基づく推論を統一するコヒーレントな統計フレームワークを提供する。
論文参考訳（メタデータ） (2025-12-04T02:26:56Z)
Nearly Optimal Sample Complexity for Learning with Label Proportions [54.67830198790247]
トレーニングセットの例をバッグにグループ化する部分情報設定であるLLP(Learning from Label Proportions)について検討する。部分的な可観測性にもかかわらず、ゴールは個々の例のレベルで小さな後悔を達成することである。我々は, LLPの2乗損失下でのサンプル複雑性について, 標本複雑性が本質的に最適であることを示す。
論文参考訳（メタデータ） (2025-05-08T15:45:23Z)
Class-wise Autoencoders Measure Classification Difficulty And Detect Label Mistakes [22.45812577928658]
本稿では,個々のクラスで訓練されたオートエンコーダ間の再構成誤差の比率に基づいて,分類データセットを解析するための新しいフレームワークを提案する。この分析フレームワークは、サンプル、クラス、およびデータセット全体のデータセットの効率的なキャラクタリゼーションを可能にする。
論文参考訳（メタデータ） (2024-12-03T17:29:00Z)
Are labels informative in semi-supervised learning? -- Estimating and leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文参考訳（メタデータ） (2023-02-15T09:18:46Z)
HardVis: Visual Analytics to Handle Instance Hardness Using Undersampling and Oversampling Techniques [48.82319198853359]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。 HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文参考訳（メタデータ） (2022-03-29T17:04:16Z)
Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文参考訳（メタデータ） (2022-02-12T04:16:41Z)
PyHard: a novel tool for generating hardness embeddings to support data-centric analysis [0.38233569758620045]
PyHardは、複数のMLモデルの予測パフォーマンスに関連するデータセットの硬度埋め込みを生成する。ユーザは、この埋め込みを複数の方法で操作することで、データとアルゴリズムのパフォーマンスに関する有用な洞察を得ることができる。我々は、この分析が、MLモデルに挑戦するハードな観察のポケットの識別をどのように支援したかを示す。
論文参考訳（メタデータ） (2021-09-29T14:08:26Z)
Learning to Aggregate and Refine Noisy Labels for Visual Sentiment Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文参考訳（メタデータ） (2021-09-15T18:18:28Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
When is Memorization of Irrelevant Training Data Necessary for High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文参考訳（メタデータ） (2020-12-11T15:25:14Z)
Geometry matters: Exploring language examples at the decision boundary [2.7249290070320034]
BERT、CNN、fasttextは、高い難易度例において単語置換の影響を受けやすい。 YelpReviewPolarityでは、レジリエンスと摂動の相関係数-0.4と難易度との相関係数を観測する。我々のアプローチは単純でアーキテクチャに依存しないものであり、テキスト分類モデルの華やかさの研究に利用できる。
論文参考訳（メタデータ） (2020-10-14T16:26:13Z)
Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。多くの場合、私たちのデータのほとんどはラベル付けされていない。半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文参考訳（メタデータ） (2020-09-27T22:13:20Z)
Revisiting Data Complexity Metrics Based on Morphology for Overlap and Imbalance: Snapshot, New Overlap Number of Balls Metrics and Singular Problems Prospect [9.666866159867444]
本研究は,データ形態に基づく複雑性メトリクスの再検討に焦点をあてる。クラスによるボールのカバレッジに基づいており、オーバーラップ・ナンバー・オブ・ボールにちなんで名付けられている。
論文参考訳（メタデータ） (2020-07-15T18:21:13Z)
Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文参考訳（メタデータ） (2020-03-02T13:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。