論文の概要: Learning from Limited and Imperfect Data
- arxiv url: http://arxiv.org/abs/2411.07229v1
- Date: Mon, 11 Nov 2024 18:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:08:58.911354
- Title: Learning from Limited and Imperfect Data
- Title(参考訳): 限られたデータと不完全なデータから学ぶ
- Authors: Harsh Rangwani,
- Abstract要約: 我々は,現実世界に存在する限られた不完全なデータから学習できるディープニューラルネットワークの実用的なアルゴリズムを開発した。
これらの作品は4つのセグメントに分けられ、それぞれが限られたデータや不完全なデータから学ぶシナリオをカバーしている。
- 参考スコア(独自算出の注目度): 6.30667368422346
- License:
- Abstract: The datasets used for Deep Neural Network training (e.g., ImageNet, MSCOCO, etc.) are often manually balanced across categories (classes) to facilitate learning of all the categories. This curation process is often expensive and requires throwing away precious annotated data to balance the frequency across classes. This is because the distribution of data in the world (e.g., internet, etc.) significantly differs from the well-curated datasets and is often over-populated with samples from common categories. The algorithms designed for well-curated datasets perform suboptimally when used to learn from imperfect datasets with long-tailed imbalances and distribution shifts. For deep models to be widely used, getting away with the costly curation process by developing robust algorithms that can learn from real-world data distribution is necessary. Toward this goal, we develop practical algorithms for Deep Neural Networks that can learn from limited and imperfect data present in the real world. These works are divided into four segments, each covering a scenario of learning from limited or imperfect data. The first part of the works focuses on Learning Generative Models for Long-Tail Data, where we mitigate the mode-collapse for tail (minority) classes and enable diverse aesthetic image generations as head (majority) classes. In the second part, we enable effective generalization on tail classes through Inductive Regularization schemes, which allow tail classes to generalize as the head classes without enforcing explicit generation of images. In the third part, we develop algorithms for Optimizing Relevant Metrics compared to the average accuracy for learning from long-tailed data with limited annotation (semi-supervised), followed by the fourth part, which focuses on the effective domain adaptation of the model to various domains with zero to very few labeled samples.
- Abstract(参考訳): ディープニューラルネットワークトレーニングに使用されるデータセット(例えば、ImageNet、MSCOCOなど)は、すべてのカテゴリの学習を容易にするために、カテゴリ(クラス)間で手動でバランスを取ることが多い。
このキュレーションプロセスは、しばしば高価であり、クラス間での頻度のバランスをとるために、貴重なアノテートされたデータを捨てる必要がある。
これは、世界中のデータ(例えば、インターネットなど)の分布が、よく計算されたデータセットと大きく異なり、しばしば一般的なカテゴリのサンプルで過剰に人口化されているためである。
精度の高いデータセットのために設計されたアルゴリズムは、長い尾の不均衡と分散シフトを持つ不完全なデータセットから学習するために使用される場合、亜最適に実行される。
ディープモデルが広く使われるためには、実世界のデータ分布から学習可能な堅牢なアルゴリズムを開発することによって、コストのかかるキュレーションプロセスから抜け出す必要がある。
この目的を達成するために,実世界の限られた不完全なデータから学習できるディープニューラルネットワークの実用的なアルゴリズムを開発した。
これらの作品は4つのセグメントに分けられ、それぞれが限られたデータや不完全なデータから学ぶシナリオをカバーしている。
研究の第1部はLong-Tail Dataのための生成モデル学習に焦点を当てており、テール(マイノリティ)クラスのモード崩壊を緩和し、ヘッド(マイノリティ)クラスとして多様な美的画像生成を可能にする。
第2部では、帰納的正規化スキームにより、画像の明示的な生成を伴わずに、尾クラスをヘッドクラスとして一般化できるようにする。
第3部では、アノテーションを限定した長い尾データから学習する平均精度と比較して、関連するメトリクスを最適化するアルゴリズムを開発し、第4部では、ゼロから非常に少ないラベル付きサンプルを用いて、モデルを様々な領域に効果的に適用することに焦点を当てた。
関連論文リスト
- FedLF: Adaptive Logit Adjustment and Feature Optimization in Federated Long-Tailed Learning [5.23984567704876]
フェデレーション学習は、分散機械学習におけるプライバシの保護という課題にパラダイムを提供する。
伝統的なアプローチは、グローバルな長期データにおけるクラスワイドバイアスの現象に対処できない。
新しい手法であるFedLFは、適応ロジット調整、連続クラス中心最適化、特徴デコリレーションという、局所的なトレーニングフェーズに3つの修正を導入している。
論文 参考訳(メタデータ) (2024-09-18T16:25:29Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Class Balancing GAN with a Classifier in the Loop [58.29090045399214]
本稿では,GANを学習するための理論的動機付けクラスバランス正則化器を提案する。
我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。
複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。
論文 参考訳(メタデータ) (2021-06-17T11:41:30Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。