論文の概要: Online Coreset Selection for Rehearsal-based Continual Learning
- arxiv url: http://arxiv.org/abs/2106.01085v1
- Date: Wed, 2 Jun 2021 11:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 01:14:27.415507
- Title: Online Coreset Selection for Rehearsal-based Continual Learning
- Title(参考訳): リハーサル型連続学習のためのオンラインコアセット選択
- Authors: Jaehong Yoon, Divyam Madaan, Eunho Yang, Sung Ju Hwang
- Abstract要約: 継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
- 参考スコア(独自算出の注目度): 65.85595842458882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A dataset is a shred of crucial evidence to describe a task. However, each
data point in the dataset does not have the same potential, as some of the data
points can be more representative or informative than others. This unequal
importance among the data points may have a large impact in rehearsal-based
continual learning, where we store a subset of the training examples (coreset)
to be replayed later to alleviate catastrophic forgetting. In continual
learning, the quality of the samples stored in the coreset directly affects the
model's effectiveness and efficiency. The coreset selection problem becomes
even more important under realistic settings, such as imbalanced continual
learning or noisy data scenarios. To tackle this problem, we propose Online
Coreset Selection (OCS), a simple yet effective method that selects the most
representative and informative coreset at each iteration and trains them in an
online manner. Our proposed method maximizes the model's adaptation to a target
dataset while selecting high-affinity samples to past tasks, which directly
inhibits catastrophic forgetting. We validate the effectiveness of our coreset
selection mechanism over various standard, imbalanced, and noisy datasets
against strong continual learning baselines, demonstrating that it improves
task adaptation and prevents catastrophic forgetting in a sample-efficient
manner.
- Abstract(参考訳): データセットはタスクを記述するための重要な証拠の集まりです。
しかしながら、データセット内の各データポイントは、他のデータポイントよりも代表的あるいは情報的であるため、同じポテンシャルを持っていない。
データポイント間のこの不平等な重要性は、リハーサルベースの継続的学習に大きな影響を与え、そこでは、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
連続学習では、コアセットに格納されたサンプルの品質がモデルの有効性と効率に直接影響する。
コアセット選択問題は、不均衡連続学習や騒がしいデータシナリオなど、現実的な設定の下でさらに重要になる。
そこで本研究では,オンライン・コアセット選択 (ocs) を提案する。オンライン・コアセット選択 (ocs, online coreset selection) は,各イテレーションにおいて最も代表的かつ情報的なコアセットを選択し,オンラインで学習する手法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化する。
我々は,様々な標準,不均衡,騒がしいデータセットに対するコアセット選択機構の有効性を検証するとともに,タスク適応性が向上し,サンプル効率のよい方法で壊滅的な忘れることを防止することを実証した。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Frugal Reinforcement-based Active Learning [12.18340575383456]
本稿では,ラベル効率向上のための新しい能動的学習手法を提案する。
提案手法は反復的であり,多様性,表現性,不確実性の基準を混合した制約対象関数の最小化を目的としている。
また、強化学習に基づく新たな重み付け機構を導入し、各トレーニングイテレーションでこれらの基準を適応的にバランスさせる。
論文 参考訳(メタデータ) (2022-12-09T14:17:45Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。