論文の概要: Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?
- arxiv url: http://arxiv.org/abs/2410.15919v1
- Date: Mon, 21 Oct 2024 11:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:27.692054
- Title: Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?
- Title(参考訳): 大規模データセット蒸留に必要なソフトラベルは必要か?
- Authors: Lingao Xiao, Yang He,
- Abstract要約: ImageNet-condensationでは、補助ソフトラベルのストレージは、凝縮データセットのストレージを30倍以上上回る。
縮合されたデータセットのクラス内における高い類似性は、大規模ソフトラベルの使用を必要とすることを示す。
画像の多様性を改善する重要な利点は、単純なランダムプルーニングによってソフトラベル圧縮を実現することができることである。
- 参考スコア(独自算出の注目度): 2.379669478864599
- License:
- Abstract: In ImageNet-condensation, the storage for auxiliary soft labels exceeds that of the condensed dataset by over 30 times. However, are large-scale soft labels necessary for large-scale dataset distillation? In this paper, we first discover that the high within-class similarity in condensed datasets necessitates the use of large-scale soft labels. This high within-class similarity can be attributed to the fact that previous methods use samples from different classes to construct a single batch for batch normalization (BN) matching. To reduce the within-class similarity, we introduce class-wise supervision during the image synthesizing process by batching the samples within classes, instead of across classes. As a result, we can increase within-class diversity and reduce the size of required soft labels. A key benefit of improved image diversity is that soft label compression can be achieved through simple random pruning, eliminating the need for complex rule-based strategies. Experiments validate our discoveries. For example, when condensing ImageNet-1K to 200 images per class, our approach compresses the required soft labels from 113 GB to 2.8 GB (40x compression) with a 2.6% performance gain. Code is available at: https://github.com/he-y/soft-label-pruning-for-dataset-distillation
- Abstract(参考訳): ImageNet-condensationでは、補助ソフトラベルのストレージは、凝縮データセットのストレージを30倍以上上回る。
しかし、大規模なデータセット蒸留には大規模なソフトラベルが必要か?
本稿では,縮合データセットにおける内部クラス間の高い類似性は,大規模ソフトラベルの使用を必要とすることを最初に発見する。
この高いクラス内類似性は、以前のメソッドが異なるクラスのサンプルを使用して、バッチ正規化(BN)マッチングのための単一のバッチを構築するという事実に起因している。
クラス内類似度を低減するため,クラス間ではなくクラス内のサンプルをバッチ化することで,画像合成過程におけるクラスワイズ管理を導入する。
その結果、クラス内での多様性を高め、必要なソフトラベルのサイズを減らすことができる。
画像の多様性の改善の大きな利点は、ソフトラベル圧縮が単純なランダムプルーニングによって達成され、複雑なルールベースの戦略を必要としないことである。
実験は我々の発見を検証する。
例えば、ImageNet-1Kをクラス毎に200イメージに縮合すると、113GBから2.8GB(40倍圧縮)までのソフトラベルを2.6%の性能向上で圧縮する。
https://github.com/he-y/soft-label-pruning-for-dataset-distillation
関連論文リスト
- Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Label merge-and-split: A graph-colouring approach for memory-efficient brain parcellation [3.2506898256325933]
脳のパーセル化には、数百のセグメンテーションラベルを大きな画像量で推測する必要がある。
まず,学習に基づく全脳のパーセレーションに必要なラベルの有効数を大幅に削減する手法であるラベルマージ・アンド・スプリットを導入する。
論文 参考訳(メタデータ) (2024-04-16T13:47:27Z) - MixSup: Mixed-grained Supervision for Label-efficient LiDAR-based 3D
Object Detection [59.1417156002086]
MixSupは、大量の安価な粗いラベルと、Mixed-fine Supervisionの限られた数の正確なラベルを同時に活用する、より実用的なパラダイムである。
MixSupは、安価なクラスタアノテーションと10%のボックスアノテーションを使用して、完全な教師付きパフォーマンスの97.31%を達成している。
論文 参考訳(メタデータ) (2024-01-29T17:05:19Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - MaskCon: Masked Contrastive Learning for Coarse-Labelled Dataset [19.45520684918576]
我々は、@textbfMask$ed $textbfCon$trastive Learning($textbfMaskCon$)と呼ばれる対照的な学習方法を提案する。
各サンプルに対して,本手法は,他のサンプルに対して粗いラベルを付与して軟質ラベルを生成する。
提案手法は, 各種データセットにおける現状よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-03-22T17:08:31Z) - Combining Metric Learning and Attention Heads For Accurate and Efficient
Multilabel Image Classification [0.0]
マルチラベル分類における2つの一般的なアプローチについて再検討する。
トランスフォーマーベースヘッドはグラフベースのブランチよりも優れた結果が得られると考えられるが、適切なトレーニング戦略により、グラフベースの手法はわずかに精度の低下を示すことができると論じる。
論文 参考訳(メタデータ) (2022-09-14T12:06:47Z) - Large Loss Matters in Weakly Supervised Multi-Label Classification [50.262533546999045]
まず、観測されていないラベルを負のラベルとみなし、Wタスクをノイズの多いマルチラベル分類にキャストする。
ノイズラベルを記憶しないために,大規模な損失サンプルを拒絶または補正する新しいW法を提案する。
提案手法は, 弱教師付きマルチラベル分類において, 大きな損失を適切に処理することが重要であることを検証した。
論文 参考訳(メタデータ) (2022-06-08T08:30:24Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - All Labels Are Not Created Equal: Enhancing Semi-supervision via Label
Grouping and Co-training [32.45488147013166]
Pseudo-labelingは、半教師付き学習(SSL)の鍵となるコンポーネントである
本論文では,ラベルセマンティクスとコトレーニングを活用した問題解決手法であるSemCoを提案する。
提案手法は,1000個のラベル付きサンプルを持つミニイメージネットデータセットにおける5.6%の精度向上を含む,様々なsslタスクにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T07:33:16Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。