論文の概要: Hitting the Target: Stopping Active Learning at the Cost-Based Optimum
- arxiv url: http://arxiv.org/abs/2110.03802v1
- Date: Thu, 7 Oct 2021 21:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 05:24:09.369478
- Title: Hitting the Target: Stopping Active Learning at the Cost-Based Optimum
- Title(参考訳): 目標達成: コストベース最適化によるアクティブラーニングの停止
- Authors: Zac Pullar-Strecker, Katharina Dost, Eibe Frank, J\"org Wicker
- Abstract要約: アクティブな学習は、従来の完全教師付き学習と同じようなパフォーマンスを維持しながら、ラベルの少ない機械学習モデルをトレーニングすることを可能にする。
本論文は,実世界のシナリオで使用する基準の停止について,実践者に対して実行可能なアドバイスを初めて行ったものである。
本研究は, 停止基準の大規模比較として, 精度・ラベルトレードオフの定量化のためのコスト尺度, 評価したすべての停止基準の公開実装, 停止基準の評価のためのオープンソースフレームワークを用いた。
- 参考スコア(独自算出の注目度): 1.1756822700775666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active learning allows machine learning models to be trained using fewer
labels while retaining similar performance to traditional fully supervised
learning. An active learner selects the most informative data points, requests
their labels, and retrains itself. While this approach is promising, it leaves
an open problem of how to determine when the model is `good enough' without the
additional labels required for traditional evaluation. In the past, different
stopping criteria have been proposed aiming to identify the optimal stopping
point. However, optimality can only be expressed as a domain-dependent
trade-off between accuracy and the number of labels, and no criterion is
superior in all applications. This paper is the first to give actionable advice
to practitioners on what stopping criteria they should use in a given
real-world scenario. We contribute the first large-scale comparison of stopping
criteria, using a cost measure to quantify the accuracy/label trade-off, public
implementations of all stopping criteria we evaluate, and an open-source
framework for evaluating stopping criteria. Our research enables practitioners
to substantially reduce labelling costs by utilizing the stopping criterion
which best suits their domain.
- Abstract(参考訳): アクティブラーニングによって、従来の完全教師付き学習と同様のパフォーマンスを維持しながら、少ないラベルで機械学習モデルをトレーニングすることが可能になる。
アクティブな学習者は最も有益なデータポイントを選択し、ラベルをリクエストし、自らをリトレーニングする。
このアプローチは有望だが、従来の評価に必要なラベルを追加することなく、モデルが"十分に良い"タイミングを決定する方法について、オープンな問題を残している。
これまで、最適な停止点を特定するために異なる停止基準が提案されてきた。
しかし、最適性は精度とラベル数の間のドメイン依存のトレードオフとしてしか表現できず、全てのアプリケーションにおいて基準が優れているわけではない。
本論文は,実世界のシナリオで使用する基準の停止について,実践者に実用的なアドバイスを初めて行ったものである。
本研究は, 停止基準の大規模比較として, 精度・ラベルトレードオフの定量化のためのコスト尺度, 評価したすべての停止基準の公開実装, 停止基準の評価のためのオープンソースフレームワークを用いた。
本研究は,ドメインに最も適合する停止基準を利用することで,ラベル付けコストを大幅に削減することを可能にする。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Fair Classifiers that Abstain without Harm [24.90899074869189]
批判的な応用においては、分類器は人間に意思決定を延期することが不可欠である。
本稿では,既存の分類器が特定のサンプルの予測を選択的に禁ずるポストホック法を提案する。
この枠組みは,同程度の禁制率で精度を犠牲にすることなく,公平性の違いの観点から既存手法より優れる。
論文 参考訳(メタデータ) (2023-10-09T23:07:28Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Cost-Effective Online Contextual Model Selection [14.094350329970537]
我々は,このタスクを,学習者が文脈とともにラベルのないデータポイントを受信する,オンラインコンテキストアクティブモデル選択問題として定式化する。
目標は、ラベルの過剰な量を得ることなく、任意のコンテキストに対して最良のモデルを出力することである。
本稿では,適応モデル選択のためのポリシークラスに定義された新しい不確実性サンプリングクエリ基準に依存する,文脈型アクティブモデル選択アルゴリズム(CAMS)を提案する。
論文 参考訳(メタデータ) (2022-07-13T08:22:22Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Beyond traditional assumptions in fair machine learning [5.029280887073969]
この論文は、連続的な意思決定における公正性に対する従来の機械学習アプローチの基礎となる一般的な仮定を精査する。
観測データの統計的特性に基づいたグループフェアネス基準は, 基本的に限定的であることを示す。
我々は、機密データが実際に容易に利用できるという仮定を克服する。
論文 参考訳(メタデータ) (2021-01-29T09:02:15Z) - Stopping criterion for active learning based on deterministic
generalization bounds [4.518012967046983]
本稿では,アクティブな学習を自動的に停止するための基準を提案する。
提案した停止基準は、期待される一般化誤差と仮説テストの違いに基づいている。
人工データセットと実データの両方を用いた実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-05-15T08:15:47Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z) - Active Bayesian Assessment for Black-Box Classifiers [20.668691047355072]
本稿では,信頼性とラベル効率の両面でのデシラタを満たすため,分類器の性能を評価するためのベイズ的手法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論手法を開発する。
次に、推論不確実性を用いたベイズ評価のための一般的な枠組みを提案し、ラベリングのための効率的なインスタンス選択を導出する。
論文 参考訳(メタデータ) (2020-02-16T08:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。