論文の概要: ActiveDC: Distribution Calibration for Active Finetuning
- arxiv url: http://arxiv.org/abs/2311.07634v3
- Date: Tue, 27 Feb 2024 07:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:47:50.824930
- Title: ActiveDC: Distribution Calibration for Active Finetuning
- Title(参考訳): ActiveDC:Active Finetuningのための配電校正
- Authors: Wenshuai Xu, Zhenghui Hu, Yu Lu, Jinzhou Meng, Qingjie Liu, Yunhong
Wang
- Abstract要約: 本研究では,アクティブ微調整タスクのためのActiveDCと呼ばれる新しい手法を提案する。
我々は,無ラベルプールにおける暗黙のカテゴリ情報を利用して,選択したサンプルの分布を校正する。
その結果,ActiveDCは画像分類タスクのベースライン性能を一貫して上回ることがわかった。
- 参考スコア(独自算出の注目度): 36.64444238742072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pretraining-finetuning paradigm has gained popularity in various computer
vision tasks. In this paradigm, the emergence of active finetuning arises due
to the abundance of large-scale data and costly annotation requirements. Active
finetuning involves selecting a subset of data from an unlabeled pool for
annotation, facilitating subsequent finetuning. However, the use of a limited
number of training samples can lead to a biased distribution, potentially
resulting in model overfitting. In this paper, we propose a new method called
ActiveDC for the active finetuning tasks. Firstly, we select samples for
annotation by optimizing the distribution similarity between the subset to be
selected and the entire unlabeled pool in continuous space. Secondly, we
calibrate the distribution of the selected samples by exploiting implicit
category information in the unlabeled pool. The feature visualization provides
an intuitive sense of the effectiveness of our approach to distribution
calibration. We conducted extensive experiments on three image classification
datasets with different sampling ratios. The results indicate that ActiveDC
consistently outperforms the baseline performance in all image classification
tasks. The improvement is particularly significant when the sampling ratio is
low, with performance gains of up to 10%. Our code will be released.
- Abstract(参考訳): プレトレーニング・ファインタニングのパラダイムは様々なコンピュータビジョンタスクで人気を集めている。
このパラダイムでは、大規模なデータとコストのかかるアノテーションの要求により、アクティブな微調整が出現する。
アクティブな微調整は、アノテーションのためにラベルのないプールからデータのサブセットを選択し、その後の微調整を容易にする。
しかし、限られた数のトレーニングサンプルを使用することでバイアスのある分布が生じ、モデルオーバーフィットにつながる可能性がある。
本稿では,アクティブなファインタニングタスクのためのActiveDCと呼ばれる新しい手法を提案する。
まず、選択すべき部分集合と連続空間における未ラベルプール全体の分布類似性を最適化することにより、アノテーションのためのサンプルを選択する。
次に,ラベルなしプール内の暗黙のカテゴリ情報を利用して,選択したサンプルの分布を校正する。
特徴の可視化は,分散キャリブレーションに対する我々のアプローチの有効性を直感的に把握する。
サンプル比の異なる3つの画像分類データセットについて広範な実験を行った。
その結果,ActiveDCは画像分類タスクのベースライン性能を一貫して上回ることがわかった。
サンプリング比が低く、パフォーマンスが最大10%向上した場合には、特に改善が重要である。
私たちのコードはリリースされます。
関連論文リスト
- Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active
Learning [6.704927458661697]
期待されている損失削減(ELR)は、分類誤差の低減と、同じフレームワークに適合するより一般的なコストのベイズ推定に焦点を当てている。
本研究では,平均値スコア(BEMPS)のベイズ推定を行い,厳密なスコアの増加を推定する。
我々は,BEMPSが頑健な獲得関数とよく校正された分類器を出力し,他の試験よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-12-15T11:02:17Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - Leveraging Importance Weights in Subset Selection [45.54597544672441]
本稿では,任意のモデルファミリを実用的なバッチ設定で扱うように設計されたサブセット選択アルゴリズムを提案する。
我々のアルゴリズムであるIWeSは、各サンプルに割り当てられたサンプリング確率が、以前選択されたバッチで訓練されたモデルのエントロピーに基づいて、重要サンプリングによってサンプルを選択する。
論文 参考訳(メタデータ) (2023-01-28T02:07:31Z) - Powering Finetuning in Few-shot Learning: Domain-Agnostic Feature
Adaptation with Rectified Class Prototypes [32.622613524622075]
ファインタニングは、新しいクラスの特徴分布におけるバイアスを減らすことに重点を置いている。
DCMとSSで微調整を行うことで、メタデータセットの最先端結果が得られる。
論文 参考訳(メタデータ) (2022-04-07T21:29:12Z) - SelectAugment: Hierarchical Deterministic Sample Selection for Data
Augmentation [72.58308581812149]
そこで我々は,SelectAugmentと呼ばれる効果的な手法を提案し,決定論的かつオンラインに拡張するサンプルを選択する。
具体的には、各バッチにおいて、まず増分比率を決定し、次にこの比で各トレーニングサンプルを増分するかを決定する。
これにより、サンプルを増量する際のランダム性による負の効果を効果的に軽減し、DAの有効性を向上させることができる。
論文 参考訳(メタデータ) (2021-12-06T08:38:38Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。