論文の概要: Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning
- arxiv url: http://arxiv.org/abs/2309.02476v1
- Date: Tue, 5 Sep 2023 14:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 17:55:33.891506
- Title: Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning
- Title(参考訳): 不確実性推定による最適サンプル選択とその深層学習への応用
- Authors: Yong Lin, Chen Liu, Chenlu Ye, Qing Lian, Yuan Yao, Tong Zhang
- Abstract要約: コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
- 参考スコア(独自算出の注目度): 22.410220040736235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning heavily relies on large labeled datasets, which often
comse with high costs in terms of both manual labeling and computational
resources. To mitigate these challenges, researchers have explored the use of
informative subset selection techniques, including coreset selection and active
learning. Specifically, coreset selection involves sampling data with both
input ($\bx$) and output ($\by$), active learning focuses solely on the input
data ($\bx$).
In this study, we present a theoretically optimal solution for addressing
both coreset selection and active learning within the context of linear softmax
regression. Our proposed method, COPS (unCertainty based OPtimal Sub-sampling),
is designed to minimize the expected loss of a model trained on subsampled
data. Unlike existing approaches that rely on explicit calculations of the
inverse covariance matrix, which are not easily applicable to deep learning
scenarios, COPS leverages the model's logits to estimate the sampling ratio.
This sampling ratio is closely associated with model uncertainty and can be
effectively applied to deep learning tasks. Furthermore, we address the
challenge of model sensitivity to misspecification by incorporating a
down-weighting approach for low-density samples, drawing inspiration from
previous works.
To assess the effectiveness of our proposed method, we conducted extensive
empirical experiments using deep neural networks on benchmark datasets. The
results consistently showcase the superior performance of COPS compared to
baseline methods, reaffirming its efficacy.
- Abstract(参考訳): 現代のディープラーニングは大きなラベル付きデータセットに大きく依存しており、手動ラベリングと計算資源の両面で高いコストで処理されることが多い。
これらの課題を軽減するため、研究者はコアセットの選択やアクティブラーニングを含む情報的サブセット選択技術の使用について検討した。
具体的には、コアセットの選択は入力($\bx$)と出力($\by$)の両方でデータをサンプリングすることを含み、アクティブな学習は入力データ($\bx$)にのみフォーカスする。
本研究では,線形ソフトマックス回帰の文脈において,コアセット選択とアクティブ学習の両方に対処する理論的に最適な解を提案する。
提案手法であるCOPS(UnCertainty based Optimal Sub-sampling)は,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑える。
ディープラーニングシナリオに容易に適用できない逆共分散行列の明示的な計算に依存する既存のアプローチとは異なり、copsはモデルのロジットを利用してサンプリング比率を推定する。
このサンプリング比はモデルの不確実性と密接に関連しており、ディープラーニングタスクに効果的に適用することができる。
さらに,低密度サンプルに低重み付け手法を導入し,過去の作品からインスピレーションを得ることにより,誤特定に対するモデル感度の課題に対処する。
提案手法の有効性を評価するため,ベンチマークデータセット上でディープニューラルネットワークを用いた広範な実験を行った。
その結果,COPSは基準法に比べて優れた性能を示し,有効性を再確認した。
関連論文リスト
- Annotation-Efficient Polyp Segmentation via Active Learning [45.59503015577479]
アノテーション効率の良いポリプセグメンテーションのための深層能動的学習フレームワークを提案する。
実際に,ポリプの予測マップと背景領域の類似性を調べることで,各試料の不確実性を測定する。
提案手法は,パブリックデータセットと大規模社内データセットの双方において,競合相手と比較して,最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-03-21T12:25:17Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Mitigating Sampling Bias and Improving Robustness in Active Learning [13.994967246046008]
教師付き環境下での能動学習に比較学習の損失を生かして教師付き能動学習を導入する。
多様な特徴表現の情報的データサンプルを選択するアンバイアスなクエリ戦略を提案する。
提案手法は,アクティブな学習環境において,サンプリングバイアスを低減し,最先端の精度を実現し,モデルの校正を行う。
論文 参考訳(メタデータ) (2021-09-13T20:58:40Z) - Semi-Supervised Active Learning with Temporal Output Discrepancy [42.01906895756629]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-07-29T16:25:56Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。