論文の概要: Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision
- arxiv url: http://arxiv.org/abs/2003.00393v1
- Date: Sun, 1 Mar 2020 03:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:48:02.939160
- Title: Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision
- Title(参考訳): Fisher Kernel Self-Supervision によるバイアス付きデータセットの深層能動学習
- Authors: Denis Gudovskiy, Alec Hodgkinson, Takuya Yamaguchi, Sotaro Tsukizawa
- Abstract要約: アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 5.352699766206807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning (AL) aims to minimize labeling efforts for data-demanding
deep neural networks (DNNs) by selecting the most representative data points
for annotation. However, currently used methods are ill-equipped to deal with
biased data. The main motivation of this paper is to consider a realistic
setting for pool-based semi-supervised AL, where the unlabeled collection of
train data is biased. We theoretically derive an optimal acquisition function
for AL in this setting. It can be formulated as distribution shift minimization
between unlabeled train data and weakly-labeled validation dataset. To
implement such acquisition function, we propose a low-complexity method for
feature density matching using self-supervised Fisher kernel (FK) as well as
several novel pseudo-label estimators. Our FK-based method outperforms
state-of-the-art methods on MNIST, SVHN, and ImageNet classification while
requiring only 1/10th of processing. The conducted experiments show at least
40% drop in labeling efforts for the biased class-imbalanced data compared to
existing methods.
- Abstract(参考訳): active learning(al)は、データ要求型ディープニューラルネットワーク(dnn)のためのラベル付け作業を最小化することを目的としている。
しかし、現在使われている方法はバイアスデータを扱うには不適当である。
本論文の主な動機は,未ラベルデータ収集に偏りがあるプール型半教師付きALの現実的な設定を検討することである。
この設定でALの最適取得関数を理論的に導出する。
これは、ラベルなしの列車データと弱いラベル付きバリデーションデータセットの間の分布シフト最小化として定式化することができる。
このような獲得関数を実装するために,自己教師型フィッシャーカーネル(FK)と新しい擬似ラベル推定器を用いた特徴密度マッチングのための低複雑さ手法を提案する。
fkベースの手法はmnist,svhn,imagenetの最先端手法よりも優れており,処理の10分の1しか必要としない。
実験の結果,既存の手法と比較して,偏りのあるクラス不均衡データに対するラベル付け作業は40%以上減少した。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Consistent Relative Confidence and Label-Free Model Selection for
Convolutional Neural Networks [4.497097230665825]
本稿では,ラベルなしデータのみを用いたCNNモデル選択手法を提案する。
提案手法の有効性と有効性は,データセットMNISTとFasionMNISTに基づく広範囲な実験により実証された。
論文 参考訳(メタデータ) (2021-08-26T15:14:38Z) - Active Learning under Pool Set Distribution Shift and Noisy Data [41.69385715445311]
BALDはそのタスクに関係のない配布外データやジャンクデータに立ち往生していることを示す。
本稿では,プールセットの分布変化に対処するため, 予測予測情報ゲイン(EPIG)*について検討する。
EPIGは、プールセットの分布と異なるかもしれないテストデータ分布からサンプリングされた未ラベル*評価セット*上の*予測*の不確実性を減らす。
論文 参考訳(メタデータ) (2021-06-22T12:39:30Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Regularization via Structural Label Smoothing [22.74769739125912]
正規化は機械学習モデルの一般化性能を促進する効果的な方法である。
本稿では,ニューラルネットワークの過度な適合を防止するための出力分布正規化の一形態であるラベル平滑化に着目した。
このようなラベルの平滑化はトレーニングデータのベイズ誤り率に定量的なバイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。