論文の概要: Improving Uncertainty Sampling with Bell Curve Weight Function
- arxiv url: http://arxiv.org/abs/2403.01352v1
- Date: Sun, 3 Mar 2024 00:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:11:10.881287
- Title: Improving Uncertainty Sampling with Bell Curve Weight Function
- Title(参考訳): ベル曲線重み関数による不確かさサンプリングの改善
- Authors: Zan-Kai Chong, Hiroyuki Ohsaki, and Bok-Min Goi
- Abstract要約: ベル曲線重み関数を用いて新しいラベルを取得するベル曲線サンプリングを提案する。
タイムベル曲線のサンプリングのほとんどは、異なる性質のデータセットにおける不確実なサンプリングと受動的学習よりも優れています。
- 参考スコア(独自算出の注目度): 0.9148747049384083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typically, a supervised learning model is trained using passive learning by
randomly selecting unlabelled instances to annotate. This approach is effective
for learning a model, but can be costly in cases where acquiring labelled
instances is expensive. For example, it can be time-consuming to manually
identify spam mails (labelled instances) from thousands of emails (unlabelled
instances) flooding an inbox during initial data collection. Generally, we
answer the above scenario with uncertainty sampling, an active learning method
that improves the efficiency of supervised learning by using fewer labelled
instances than passive learning. Given an unlabelled data pool, uncertainty
sampling queries the labels of instances where the predicted probabilities, p,
fall into the uncertainty region, i.e., $p \approx 0.5$. The newly acquired
labels are then added to the existing labelled data pool to learn a new model.
Nonetheless, the performance of uncertainty sampling is susceptible to the area
of unpredictable responses (AUR) and the nature of the dataset. It is difficult
to determine whether to use passive learning or uncertainty sampling without
prior knowledge of a new dataset. To address this issue, we propose bell curve
sampling, which employs a bell curve weight function to acquire new labels.
With the bell curve centred at p=0.5, bell curve sampling selects instances
whose predicted values are in the uncertainty area most of the time without
neglecting the rest. Simulation results show that, most of the time bell curve
sampling outperforms uncertainty sampling and passive learning in datasets of
different natures and with AUR.
- Abstract(参考訳): 通常、教師付き学習モデルは、無記名インスタンスをランダムに選択して注釈付けすることにより、受動的学習を用いて訓練される。
このアプローチはモデルを学ぶのに効果的ですが、ラベル付きインスタンスを取得するのにコストがかかります。
例えば、初期データ収集中に受信箱に溢れる何千ものメール(ラベル付きインスタンス)からスパムメール(ラベル付きインスタンス)を手動で識別するのに時間がかかる。
一般に, 受動的学習よりもラベル付きインスタンスが少なく, 教師付き学習の効率を向上させるアクティブ学習手法である不確実性サンプリングを用いて, 上記のシナリオに答える。
ラベルのないデータプールが与えられた場合、不確実性サンプリングは予測された確率 p が不確実性領域、すなわち$p \approx 0.5$に該当するインスタンスのラベルをクエリする。
新たに取得したラベルは、既存のラベル付きデータプールに追加され、新しいモデルが学習される。
それにもかかわらず、不確実サンプリングの性能は予測不能応答(AUR)の領域とデータセットの性質に左右される。
新しいデータセットの事前知識を使わずに受動的学習や不確実性サンプリングを使うかどうかを判断することは困難である。
この問題に対処するために,ベル曲線重み関数を用いて新しいラベルを取得するベル曲線サンプリングを提案する。
p=0.5中心のベル曲線により、ベル曲線サンプリングは、予測値が不確実な領域にあるインスタンスを、残りを無視せずに選択する。
シミュレーションの結果,ベル曲線のサンプリングは不確実性サンプリングや受動的学習をaurと異なる性質のデータセットで超えていることがわかった。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Combating Label Noise With A General Surrogate Model For Sample Selection [77.45468386115306]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Sample Selection with Uncertainty of Losses for Learning with Noisy
Labels [145.06552420999986]
ノイズの多いラベルで学習する際、サンプル選択アプローチは非常に人気があり、小さなロスデータをトレーニング中に正しくラベル付けされているとみなす。
しかし、ノイズラベルでトレーニングされたモデルに基づいて、損失をオンザフライで発生させるため、大容量のデータはおそらく正しくないが、確実に誤りではない。
本稿では,損失点推定の代わりに間隔推定を採用することにより,損失の不確実性を取り入れる。
論文 参考訳(メタデータ) (2021-06-01T12:53:53Z) - Deep Active Learning via Open Set Recognition [0.0]
多くのアプリケーションでは、データは簡単に取得できるが、顕著な例を示すのに高価で時間がかかる。
オープンセット認識問題として能動的学習を定式化する。
現在のアクティブな学習方法とは異なり、我々のアルゴリズムはタスクラベルを必要とせずにタスクを学習することができる。
論文 参考訳(メタデータ) (2020-07-04T22:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。