論文の概要: Overcoming Overconfidence for Active Learning
- arxiv url: http://arxiv.org/abs/2308.10571v1
- Date: Mon, 21 Aug 2023 09:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:19:19.189246
- Title: Overcoming Overconfidence for Active Learning
- Title(参考訳): アクティブラーニングの過信を克服する
- Authors: Yujin Hwang, Won Jo, Juyoung Hong, and Yukyung Choi
- Abstract要約: 本稿では,アクティブな学習シナリオで発生する過信の問題に対処する2つの新しい手法を提案する。
1つ目はCross-Mix-and-Mix(CMaM)と呼ばれる拡張戦略で、限られたトレーニング分布を拡張してモデルを校正することを目的としている。
2つ目は Ranked Margin Sampling (RankedMS) という選択戦略である。
- 参考スコア(独自算出の注目度): 1.2776312584227847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is not an exaggeration to say that the recent progress in artificial
intelligence technology depends on large-scale and high-quality data.
Simultaneously, a prevalent issue exists everywhere: the budget for data
labeling is constrained. Active learning is a prominent approach for addressing
this issue, where valuable data for labeling is selected through a model and
utilized to iteratively adjust the model. However, due to the limited amount of
data in each iteration, the model is vulnerable to bias; thus, it is more
likely to yield overconfident predictions. In this paper, we present two novel
methods to address the problem of overconfidence that arises in the active
learning scenario. The first is an augmentation strategy named
Cross-Mix-and-Mix (CMaM), which aims to calibrate the model by expanding the
limited training distribution. The second is a selection strategy named Ranked
Margin Sampling (RankedMS), which prevents choosing data that leads to overly
confident predictions. Through various experiments and analyses, we are able to
demonstrate that our proposals facilitate efficient data selection by
alleviating overconfidence, even though they are readily applicable.
- Abstract(参考訳): 人工知能技術の最近の進歩は、大規模で高品質なデータに依存していると言っても過言ではない。
データラベリングの予算は制限されています。
アクティブラーニングは、モデルを通してラベル付けのための貴重なデータを選択し、モデルを反復的に調整する、この問題に対処するための顕著なアプローチである。
しかしながら、各イテレーションでのデータ量が限られているため、モデルはバイアスに弱いため、過度に信頼された予測が得られる可能性が高い。
本稿では,アクティブな学習シナリオで発生する自信過剰問題に対処するための2つの新しい手法を提案する。
1つ目はCross-Mix-and-Mix(CMaM)と呼ばれる拡張戦略で、限られたトレーニング分布を拡張してモデルを校正することを目的としている。
2つめは、ランク付けマージンサンプリング(rankedms)と呼ばれる選択戦略で、過度に自信過剰な予測につながるデータの選択を防止する。
様々な実験や分析を通じて,提案手法が有効であっても,過信を緩和し,効率的なデータ選択を容易にすることを示すことができる。
関連論文リスト
- Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Uncertainty-Aware Bootstrap Learning for Joint Extraction on
Distantly-Supervised Data [36.54640096189285]
ブートストラップ学習は、インスタンスの不確実性が高ければ高いほど、モデルの信頼性は基礎的な真実と矛盾する可能性が高いという直感によって動機付けられます。
まず、まずインスタンスレベルのデータ不確実性を調べて、信頼度の高い最初の例を作成します。
ブートストラップ学習において,ノイズラベルが生成するモデル間不確実性を軽減するために,正規化器としての自己認識を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:06:11Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Two-stage Modeling for Prediction with Confidence [0.0]
分布シフト条件下でニューラルネットワークの性能を一般化することは困難である。
本稿では,分散シフト問題に対する新しい2段階モデルを提案する。
我々のモデルは、ほとんどのデータセットに対して信頼性の高い予測を提供することを示す。
論文 参考訳(メタデータ) (2022-09-19T08:48:07Z) - Learning Invariant Representation with Consistency and Diversity for
Semi-supervised Source Hypothesis Transfer [46.68586555288172]
本稿では,SSHT(Semi-supervised Source hypothesis Transfer)という新たなタスクを提案する。
本研究では、ランダムに拡張された2つの未ラベルデータ間の予測整合性を容易にし、SSHTの簡易かつ効果的なフレームワークである一貫性と多様性の学習(CDL)を提案する。
実験の結果,本手法は,DomainNet,Office-Home,Office-31データセット上で,既存のSSDA手法や教師なしモデル適応手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-07T04:14:24Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。