論文の概要: REDUCR: Robust Data Downsampling Using Class Priority Reweighting
- arxiv url: http://arxiv.org/abs/2312.00486v1
- Date: Fri, 1 Dec 2023 10:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 14:52:55.295605
- Title: REDUCR: Robust Data Downsampling Using Class Priority Reweighting
- Title(参考訳): REDUCR: クラス優先度再重み付けを用いたロバストデータダウンサンプリング
- Authors: William Bankes, George Hughes, Ilija Bogunovic and Zi Wang
- Abstract要約: この研究は、クラス優先度の再重み付けを使用する堅牢で効率的なデータダウンサンプリング手法であるREDUCRを導入している。
視覚およびテキスト分類タスクにおけるREDUCRのデータ効率とロバスト性能を実証する。
- 参考スコア(独自算出の注目度): 15.327707569897617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning models are becoming increasingly expensive to train
for real-world image and text classification tasks, where massive web-scale
data is collected in a streaming fashion. To reduce the training cost, online
batch selection techniques have been developed to choose the most informative
datapoints. However, these techniques can suffer from poor worst-class
generalization performance due to class imbalance and distributional shifts.
This work introduces REDUCR, a robust and efficient data downsampling method
that uses class priority reweighting. REDUCR reduces the training data while
preserving worst-class generalization performance. REDUCR assigns priority
weights to datapoints in a class-aware manner using an online learning
algorithm. We demonstrate the data efficiency and robust performance of REDUCR
on vision and text classification tasks. On web-scraped datasets with
imbalanced class distributions, REDUCR significantly improves worst-class test
accuracy (and average accuracy), surpassing state-of-the-art methods by around
15%.
- Abstract(参考訳): 現代の機械学習モデルは、大規模なWebスケールデータがストリーミング形式で収集される現実世界の画像やテキストの分類タスクのために訓練するコストがますます高まっている。
トレーニングコストを削減するため、最も有用なデータポイントを選択するためにオンラインバッチ選択技術が開発されている。
しかし,これらの手法は,クラス不均衡や分布シフトなどにより,最悪クラスの一般化性能に支障をきたす可能性がある。
本研究は,クラス優先度の再重み付けを用いたロバストで効率的なデータダウンサンプリング手法であるreducrを紹介する。
REDUCRは、最悪のクラス一般化性能を維持しながら、トレーニングデータを削減する。
REDUCRは、オンライン学習アルゴリズムを用いて、クラスを意識した方法でデータポイントに優先度重みを割り当てる。
視覚およびテキスト分類タスクにおけるREDUCRのデータ効率とロバスト性能を実証する。
不均衡なクラス分布を持つウェブスクレイプデータセットでは、REDUCRは最悪のテスト精度(および平均精度)を大幅に改善し、最先端の手法を約15%上回る。
関連論文リスト
- Machine Unlearning on Pre-trained Models by Residual Feature Alignment Using LoRA [15.542668474378633]
本稿では,事前学習モデルを用いた新しい機械学習手法を提案する。
LoRAを利用して、モデルの中間機能を事前訓練された特徴と残像に分解する。
本手法は,保持集合上のゼロ残差を学習し,未学習集合上でシフト残差を学習することを目的としている。
論文 参考訳(メタデータ) (2024-11-13T08:56:35Z) - Data-Free Generative Replay for Class-Incremental Learning on Imbalanced Data [0.7366405857677227]
連続的な学習は、特に不均衡なデータセットを持つ画像分類タスクにおいて、機械学習において難しい問題である。
本稿では、実データにアクセスせずに生成者を訓練するクラスインクリメンタルラーニングのためのData-Free Generative Replay(DFGR)を提案する。
DFGRはMNISTデータセットとFashionMNISTデータセットでそれぞれ88.5%と46.6%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-07T17:51:27Z) - DRoP: Distributionally Robust Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Efficient Conditional Pre-training for Transfer Learning [71.01129334495553]
本稿では,事前学習データセットから関連するサブセットを選択するための効率的なフィルタリング手法を提案する。
我々は、教師なし設定と教師なし設定の両方において、ImageNetで事前トレーニングを行うことで、我々の技術を検証する。
我々は、サブセットで利用可能なモデルをチューニングし、大規模なデータセットからフィルタリングされたデータセットで事前トレーニングすることで、標準のImageNet事前トレーニングを1~3%改善する。
論文 参考訳(メタデータ) (2020-11-20T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。