論文の概要: Practical Active Learning with Model Selection for Small Data
- arxiv url: http://arxiv.org/abs/2112.11572v1
- Date: Tue, 21 Dec 2021 23:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:37:37.959342
- Title: Practical Active Learning with Model Selection for Small Data
- Title(参考訳): 小データのためのモデル選択による実践的アクティブラーニング
- Authors: Maryam Pardakhti, Nila Mandal, Anson W. K. Ma and Qian Yang
- Abstract要約: モデル選択を用いた実践的能動的学習のための簡易かつ高速な手法を開発した。
本手法は,ラジアル基底関数カーネルを用いたサポートベクトル分類を用いて,二元分類のためのプールベースアクティブラーナに基づく。
- 参考スコア(独自算出の注目度): 13.128648437690224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning is of great interest for many practical applications,
especially in industry and the physical sciences, where there is a strong need
to minimize the number of costly experiments necessary to train predictive
models. However, there remain significant challenges for the adoption of active
learning methods in many practical applications. One important challenge is
that many methods assume a fixed model, where model hyperparameters are chosen
a priori. In practice, it is rarely true that a good model will be known in
advance. Existing methods for active learning with model selection typically
depend on a medium-sized labeling budget. In this work, we focus on the case of
having a very small labeling budget, on the order of a few dozen data points,
and develop a simple and fast method for practical active learning with model
selection. Our method is based on an underlying pool-based active learner for
binary classification using support vector classification with a radial basis
function kernel. First we show empirically that our method is able to find
hyperparameters that lead to the best performance compared to an oracle model
on less separable, difficult to classify datasets, and reasonable performance
on datasets that are more separable and easier to classify. Then, we
demonstrate that it is possible to refine our model selection method using a
weighted approach to trade-off between achieving optimal performance on
datasets that are easy to classify, versus datasets that are difficult to
classify, which can be tuned based on prior domain knowledge about the dataset.
- Abstract(参考訳): アクティブラーニングは多くの実践的応用、特に産業や物理科学において非常に関心を寄せており、予測モデルのトレーニングに必要な費用のかかる実験の数を最小化する必要がある。
しかし,多くの実践的応用において,アクティブラーニング手法の採用には大きな課題が残っている。
重要な課題の1つは、多くのメソッドが、モデルハイパーパラメータが事前選択される固定モデルを想定していることである。
実際には、良いモデルが事前に知られていることは滅多にない。
モデル選択によるアクティブな学習のための既存の方法は、通常中規模のラベル付け予算に依存する。
本研究では,非常に小さなラベル付け予算を持つ場合,数十点のデータポイントの順序に焦点をあて,モデル選択による実践的アクティブラーニングのための簡易かつ高速な手法を開発する。
本手法は,ラジアル基底関数カーネルを用いたサポートベクトル分類を用いたバイナリ分類のためのプール型アクティブラーナに基づく。
まず,分離性が低く,データセットの分類が困難で,分離性が高く分類が容易なデータセット上で,oracleモデルと比較して最高のパフォーマンスをもたらすハイパーパラメータを見つけることが可能であることを実証的に示す。
そこで,本論文では,データセットの分類が容易なデータセットと,データセットに関する事前のドメイン知識に基づいて調整が難しいデータセットとのトレードオフを,重み付けアプローチによるモデル選択手法の洗練が可能であることを示す。
関連論文リスト
- An information-matching approach to optimal experimental design and active learning [0.9362620873652918]
候補プールから最も情報に富むトレーニングデータを選択するために,フィッシャー情報行列に基づく情報マッチング基準を導入する。
本稿では,電力系統や水中音響など,様々な科学分野におけるモデリング問題に対するこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-11-05T02:16:23Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Active Learning with Combinatorial Coverage [0.0]
アクティブな学習は、ラベル付けするデータを選択するプロセスを自動化する機械学習の実践的な分野である。
現在の手法はデータラベリングの負担を軽減するのに有効であるが、モデルに強く依存する。
これにより、サンプルデータの新しいモデルへの転送が不可能になり、サンプリングバイアスの問題も発生した。
本稿では,これらの課題を克服するために,カバレッジを活用した能動的学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:43:23Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。