論文の概要: Is margin all you need? An extensive empirical study of active learning
on tabular data
- arxiv url: http://arxiv.org/abs/2210.03822v1
- Date: Fri, 7 Oct 2022 21:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:56:49.413804
- Title: Is margin all you need? An extensive empirical study of active learning
on tabular data
- Title(参考訳): マージンは必要なだけですか。
表データを用いたアクティブラーニングの広範な実証的研究
- Authors: Dara Bahri, Heinrich Jiang, Tal Schuster, Afshin Rostamizadeh
- Abstract要約: 我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
- 参考スコア(独自算出の注目度): 66.18464006872345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a labeled training set and a collection of unlabeled data, the goal of
active learning (AL) is to identify the best unlabeled points to label. In this
comprehensive study, we analyze the performance of a variety of AL algorithms
on deep neural networks trained on 69 real-world tabular classification
datasets from the OpenML-CC18 benchmark. We consider different data regimes and
the effect of self-supervised model pre-training. Surprisingly, we find that
the classical margin sampling technique matches or outperforms all others,
including current state-of-art, in a wide range of experimental settings. To
researchers, we hope to encourage rigorous benchmarking against margin, and to
practitioners facing tabular data labeling constraints that
hyper-parameter-free margin may often be all they need.
- Abstract(参考訳): ラベル付きトレーニングセットとラベルなしデータのコレクションが与えられた場合、アクティブラーニング(AL)の目的はラベルなしの最良のポイントを特定することである。
この包括的研究により,openml-cc18ベンチマークから69の表型分類データセットで学習した深層ニューラルネットワーク上での多種多様なalアルゴリズムの性能を解析した。
我々は、異なるデータ体制と自己教師付きモデル事前学習の効果を考察する。
驚くべきことに、古典的なマージンサンプリングテクニックは、現在の最先端を含む他のすべての実験的な設定とマッチするか、あるいは上回っていることが分かりました。
研究者には、マージンに対する厳格なベンチマークを奨励し、ハイパーパラメータフリーマージンが必要となる場合が多い、テーブル型データラベリングの制約に直面している実践者にも推奨したい。
関連論文リスト
- Inconsistency Masks: Removing the Uncertainty from Input-Pseudo-Label Pairs [0.0]
Inconsistency Masks (IM) は、画像と擬似ラベルのペアの不確実性をフィルタリングし、セグメンテーションの品質を大幅に向上させる新しい手法である。
4つの多様なデータセットに対して10%のラベル付きデータで強力なセグメンテーション結果を得る。
3つのハイブリッドアプローチは、完全にラベル付けされたデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-25T18:46:35Z) - Memory Consistency Guided Divide-and-Conquer Learning for Generalized
Category Discovery [56.172872410834664]
一般カテゴリー発見(GCD)は、半教師付き学習のより現実的で挑戦的な設定に対処することを目的としている。
メモリ一貫性を誘導する分枝・分枝学習フレームワーク(MCDL)を提案する。
本手法は,画像認識の目に見えるクラスと見えないクラスの両方において,最先端のモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-24T09:39:45Z) - Learning from the Best: Active Learning for Wireless Communications [9.523381807291049]
アクティブな学習アルゴリズムは、ラベル付けされていないデータセットの中で最も重要で情報に富んだサンプルを特定し、完全なデータセットではなく、これらのサンプルのみをラベル付けする。
本稿では, ディープラーニングに基づくmmWaveビーム選択のケーススタディとして, 包括探索に基づく計算集約アルゴリズムを用いてラベル付けを行う。
この結果から,クラス不均衡データセットに対するアクティブな学習アルゴリズムを用いることで,データセットのラベル付けオーバーヘッドを最大50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-01-23T12:21:57Z) - MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - R\'{e}nyi Entropy Bounds on the Active Learning Cost-Performance
Tradeoff [27.436483977171328]
半教師付き分類は、しばしば豊富なラベル付けされていないデータの統計的知識と、しばしば制限されたラベル付けされたデータを組み合わせて、全体的な分類精度を最大化する方法について研究する。
本稿では,ラベル付きラベル付きデータを用いた半教師付き分類における最適ポリシーの非漸近解析を開始する。
本稿では,ラベルクエリ予算によるコスト対効果のトレードオフと全体分類精度の観点から,共同最適化型アクティブラーニングと半教師付き分類ポリシーを初めて評価する。
論文 参考訳(メタデータ) (2020-02-05T22:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。