論文の概要: Model Uncertainty based Active Learning on Tabular Data using Boosted
Trees
- arxiv url: http://arxiv.org/abs/2310.19573v1
- Date: Mon, 30 Oct 2023 14:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:55:46.037682
- Title: Model Uncertainty based Active Learning on Tabular Data using Boosted
Trees
- Title(参考訳): ブーストツリーを用いた語彙データに基づくモデル不確かさに基づく能動的学習
- Authors: Sharath M Shankaranarayana
- Abstract要約: 監視された機械学習は、モデルトレーニングのための良質なラベル付きデータの可用性に依存している。
アクティブな学習は機械学習のサブフィールドであり、ラベル付きデータを効率的に取得するのに役立つ。
- 参考スコア(独自算出の注目度): 0.4667030429896303
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Supervised machine learning relies on the availability of good labelled data
for model training. Labelled data is acquired by human annotation, which is a
cumbersome and costly process, often requiring subject matter experts. Active
learning is a sub-field of machine learning which helps in obtaining the
labelled data efficiently by selecting the most valuable data instances for
model training and querying the labels only for those instances from the human
annotator. Recently, a lot of research has been done in the field of active
learning, especially for deep neural network based models. Although deep
learning shines when dealing with image\textual\multimodal data, gradient
boosting methods still tend to achieve much better results on tabular data. In
this work, we explore active learning for tabular data using boosted trees.
Uncertainty based sampling in active learning is the most commonly used
querying strategy, wherein the labels of those instances are sequentially
queried for which the current model prediction is maximally uncertain. Entropy
is often the choice for measuring uncertainty. However, entropy is not exactly
a measure of model uncertainty. Although there has been a lot of work in deep
learning for measuring model uncertainty and employing it in active learning,
it is yet to be explored for non-neural network models. To this end, we explore
the effectiveness of boosted trees based model uncertainty methods in active
learning. Leveraging this model uncertainty, we propose an uncertainty based
sampling in active learning for regression tasks on tabular data. Additionally,
we also propose a novel cost-effective active learning method for regression
tasks along with an improved cost-effective active learning method for
classification tasks.
- Abstract(参考訳): 教師付き機械学習は、モデルトレーニングのための適切なラベル付きデータの可用性に依存している。
ラベル付きデータは人間のアノテーションによって取得されるが、これは面倒でコストのかかるプロセスであり、しばしば主題の専門家を必要とする。
アクティブラーニングは機械学習のサブフィールドであり、モデルトレーニングのための最も価値のあるデータインスタンスを選択し、人間のアノテータからのみラベルをクエリすることで、ラベル付きデータを効率的に取得するのに役立つ。
近年、特に深層ニューラルネットワークに基づくモデルにおいて、アクティブラーニングの分野で多くの研究が行われている。
image\textual\multimodalデータを扱う際にはディープラーニングが輝くが、勾配向上手法は表データよりもはるかに優れた結果が得られる傾向にある。
本研究では,ブースト木を用いた表データに対するアクティブラーニングについて検討する。
アクティブラーニングにおける不確実性に基づくサンプリングは、最も一般的に使用されるクエリ戦略であり、これらのインスタンスのラベルは、現在のモデル予測が最大限に不確実なシーケンシャルにクエリされる。
エントロピーはしばしば不確実性を測定するための選択である。
しかし、エントロピーは必ずしもモデルの不確かさの尺度ではない。
モデル不確実性を計測し、それをアクティブな学習に活用する深層学習には多くの研究があるが、神経以外のネットワークモデルについては、まだ研究されていない。
そこで本研究では,強化木を用いたモデル不確実性手法の有効性について検討する。
このモデルの不確実性を生かして、表データの回帰タスクに対するアクティブラーニングにおける不確実性に基づくサンプリングを提案する。
さらに,回帰課題に対するコスト効率のよいアクティブラーニング手法と,分類課題に対するコスト効率のよいアクティブラーニング手法を提案する。
関連論文リスト
- Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Efficacy of Bayesian Neural Networks in Active Learning [11.609770399591516]
ベイズニューラルネットワークは、アンサンブルに基づく不確実性を捕捉する技術よりも効率的であることを示す。
また,近年,モンテカルロのドロップアウトよりも効果的であることが判明したアンサンブル技法の重要な欠点も明らかにした。
論文 参考訳(メタデータ) (2021-04-02T06:02:11Z) - Deep Bayesian Active Learning, A Brief Survey on Recent Advances [6.345523830122166]
アクティブラーニングは、ラベル付きデータの小さなサイズでモデルをトレーニングし始める。
ディープラーニングメソッドはモデルの不確実性を表現あるいは操作できない。
deep bayesian active learningフレームワークは、モデルにおける実践的な考察を提供する。
論文 参考訳(メタデータ) (2020-12-15T02:06:07Z) - Active Learning: Problem Settings and Recent Developments [2.1574781022415364]
本稿では,アクティブラーニングの基本的課題と最近の研究動向について述べる。
特に,ラベリング用データからサンプルを選択する学習獲得関数の研究,アクティブ学習アルゴリズムに関する理論的研究,逐次データ取得のための停止基準について注目する。
論文 参考訳(メタデータ) (2020-12-08T05:24:06Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。