論文の概要: Granular-ball Representation Learning for Deep CNN on Learning with Label Noise
- arxiv url: http://arxiv.org/abs/2409.03254v1
- Date: Thu, 5 Sep 2024 05:18:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:40:47.936071
- Title: Granular-ball Representation Learning for Deep CNN on Learning with Label Noise
- Title(参考訳): ラベル雑音による学習における深部CNNの粒界表現学習
- Authors: Dawei Dai, Hao Zhu, Shuyin Xia, Guoyin Wang,
- Abstract要約: 本稿では,CNNモデルに組み込むことが可能な一般粒界計算(GBC)モジュールを提案する。
本研究では,入力サンプルを機能レベルで$gb$のサンプルとして分割し,各サンプルは異なる数を持つ複数のサンプルに対応して1つのラベルを共有できることを示した。
実験により,提案手法は追加データや最適化を伴わずにCNNモデルのロバスト性を向上させることができることが示された。
- 参考スコア(独自算出の注目度): 14.082510085545582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In actual scenarios, whether manually or automatically annotated, label noise is inevitably generated in the training data, which can affect the effectiveness of deep CNN models. The popular solutions require data cleaning or designing additional optimizations to punish the data with mislabeled data, thereby enhancing the robustness of models. However, these methods come at the cost of weakening or even losing some data during the training process. As we know, content is the inherent attribute of an image that does not change with changes in annotations. In this study, we propose a general granular-ball computing (GBC) module that can be embedded into a CNN model, where the classifier finally predicts the label of granular-ball ($gb$) samples instead of each individual samples. Specifically, considering the classification task: (1) in forward process, we split the input samples as $gb$ samples at feature-level, each of which can correspond to multiple samples with varying numbers and share one single label; (2) during the backpropagation process, we modify the gradient allocation strategy of the GBC module to enable it to propagate normally; and (3) we develop an experience replay policy to ensure the stability of the training process. Experiments demonstrate that the proposed method can improve the robustness of CNN models with no additional data or optimization.
- Abstract(参考訳): 実際のシナリオでは、手動でアノテートするか、自動でアノテートするかにかかわらず、ラベルノイズはトレーニングデータに必然的に生成され、ディープCNNモデルの有効性に影響を与える可能性がある。
一般的なソリューションは、間違ったラベル付きデータでデータを罰するために、データのクリーニングや追加の最適化設計を必要とし、それによってモデルの堅牢性を高める。
しかし、これらの手法は、トレーニングプロセス中にデータを弱めたり、失ったりするコストがかかる。
私たちが知っているように、コンテンツはアノテーションの変更で変化しないイメージの固有の属性です。
本研究では, CNNモデルに組み込むことが可能な一般粒界計算(GBC)モジュールを提案し, 分類器は個々のサンプルの代わりに粒界(gb$)のラベルを最終的に予測する。
具体的には,(1)フォワードプロセスにおいて,入力サンプルを機能レベルで$gb$のサンプルとして分割し,各サンプルが異なる数を持つ複数のサンプルに対応して1つのラベルを共有すること,(2)バックプロパゲーションプロセスにおいて,GBCモジュールの勾配アロケーション戦略を変更して正常に伝搬すること,(3)トレーニングプロセスの安定性を確保するためのエクスペリエンスリプレイポリシを開発すること,である。
実験により,提案手法は追加データや最適化を伴わずにCNNモデルのロバスト性を向上させることができることが示された。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Reconstructing Training Data from Model Gradient, Provably [68.21082086264555]
ランダムに選択されたパラメータ値で1つの勾配クエリからトレーニングサンプルを再構成する。
センシティブなトレーニングデータを示す証明可能な攻撃として、われわれの発見はプライバシーに対する深刻な脅威を示唆している。
論文 参考訳(メタデータ) (2022-12-07T15:32:22Z) - Scalable Penalized Regression for Noise Detection in Learning with Noisy
Labels [44.79124350922491]
理論的に保証された雑音ラベル検出フレームワークを用いて,雑音ラベルを用いた学習のためのノイズデータの検出と除去を行う。
具体的には,ネットワーク特徴量と1ホットラベルの線形関係をモデル化するためのペナル化回帰を設計する。
多数のカテゴリやトレーニングデータを含むデータセットに対して,フレームワークをスケーラブルにするために,トレーニングセット全体を小片に分割する分割アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-15T11:09:58Z) - Delving into Sample Loss Curve to Embrace Noisy and Imbalanced Data [17.7825114228313]
破損したラベルとクラス不均衡は、実際に収集されたトレーニングデータでよく見られる。
既存のアプローチは、サンプルの再重み付け戦略を採用することで、これらの問題を緩和します。
しかし、ラベルが破損したサンプルと、訓練データに一般的に共存する尾のクラスは偏りがあった。
論文 参考訳(メタデータ) (2021-12-30T09:20:07Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。