論文の概要: Unsupervised Pool-Based Active Learning for Linear Regression
- arxiv url: http://arxiv.org/abs/2001.05028v1
- Date: Tue, 14 Jan 2020 20:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:06:04.795074
- Title: Unsupervised Pool-Based Active Learning for Linear Regression
- Title(参考訳): 線形回帰のための教師なしプール型アクティブラーニング
- Authors: Ziang Liu and Dongrui Wu
- Abstract要約: 本稿では,線形回帰問題に対する教師なしプールベースALについて検討する。
本稿では,ALにおける3つの重要な基準である,情報性,代表性,多様性を同時に考慮した新たなALアプローチを提案する。
- 参考スコア(独自算出の注目度): 29.321275647107928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world machine learning applications, unlabeled data can be
easily obtained, but it is very time-consuming and/or expensive to label them.
So, it is desirable to be able to select the optimal samples to label, so that
a good machine learning model can be trained from a minimum amount of labeled
data. Active learning (AL) has been widely used for this purpose. However, most
existing AL approaches are supervised: they train an initial model from a small
amount of labeled samples, query new samples based on the model, and then
update the model iteratively. Few of them have considered the completely
unsupervised AL problem, i.e., starting from zero, how to optimally select the
very first few samples to label, without knowing any label information at all.
This problem is very challenging, as no label information can be utilized. This
paper studies unsupervised pool-based AL for linear regression problems. We
propose a novel AL approach that considers simultaneously the informativeness,
representativeness, and diversity, three essential criteria in AL. Extensive
experiments on 14 datasets from various application domains, using three
different linear regression models (ridge regression, LASSO, and linear support
vector regression), demonstrated the effectiveness of our proposed approach.
- Abstract(参考訳): 多くの現実世界の機械学習アプリケーションでは、ラベルなしのデータを簡単に取得できるが、ラベル付けするのに非常に時間がかかる。
したがって、ラベル付きデータの最小量から優れた機械学習モデルをトレーニングできるように、ラベル付きに最適なサンプルを選択することが望ましい。
アクティブラーニング(AL)はこの目的のために広く利用されている。
少数のラベル付きサンプルから初期モデルをトレーニングし、モデルに基づいて新しいサンプルをクエリし、反復的にモデルを更新する。
完全に教師なしのAL問題、すなわちゼロから始めて、ラベル情報を全く知らないまま、ラベル付けする最初の少数のサンプルを最適に選択する方法を考える人はほとんどいない。
ラベル情報は利用できないので、この問題は非常に難しい。
本稿では,線形回帰問題に対する教師なしプールベースALについて検討する。
本稿では,ALにおける3つの重要な基準である,情報性,代表性,多様性を同時に考慮した新たなALアプローチを提案する。
3つの異なる線形回帰モデル(リッジ回帰、LASSO、リニアサポートベクトル回帰)を用いて、様々なアプリケーション領域から14のデータセットを広範囲に実験し、提案手法の有効性を実証した。
関連論文リスト
- One-shot Active Learning Based on Lewis Weight Sampling for Multiple Deep Models [39.582100727546816]
複数のターゲットモデルに対するアクティブラーニング(AL)は、ラベル付きデータクエリの削減と、複数のモデルを並列に効果的にトレーニングすることを目的としている。
既存のALアルゴリズムは、しばしば計算コストのかかる反復的なモデルトレーニングに依存している。
本稿では,この課題に対処する一発AL手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:48:16Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - DEAL: Deep Evidential Active Learning for Image Classification [0.0]
アクティブラーニング(AL)は、限られたラベル付きデータの問題を緩和するためのアプローチである。
CNNの最近のAL手法は、ラベル付けするインスタンスの選択に異なる解決策を提案する。
本稿では,ラベルのないデータから高い予測不確かさを捕捉して効率よく学習する新しいALアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-22T11:14:23Z) - Integrating Informativeness, Representativeness and Diversity in
Pool-Based Sequential Active Learning for Regression [29.321275647107928]
ラベル付けするサンプルを最適に選択することで、ラベル付けされたサンプルの数から、より優れた機械学習モデルをトレーニングすることができる。
回帰問題に対して、情報性、代表性、多様性の3つの必須基準が提案されている。
我々は3つの基準を統合するための異なる戦略を持つ3つの新しいALRアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-26T08:10:58Z) - Pool-Based Unsupervised Active Learning for Regression Using Iterative
Representativeness-Diversity Maximization (iRDM) [22.037639625586667]
アクティブラーニング(AL)はラベル付けに最も有用な未ラベルのサンプルを選択するため、同じラベル付けされたサンプルからより優れた機械学習モデルをトレーニングすることができる。
回帰(ALR)アプローチのための既存のアクティブラーニングは監視されており、サンプリングプロセスはラベル情報を使用する必要がある。
提案手法は, 新規な教師なしALR手法, 反復代表性多様性 (iRDM) を用いて, 選択したサンプルの表現性と多様性のバランスをとるものである。
論文 参考訳(メタデータ) (2020-03-17T12:20:46Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。