論文の概要: Distilling Long-tailed Datasets
- arxiv url: http://arxiv.org/abs/2408.14506v2
- Date: Wed, 19 Mar 2025 01:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:19:48.367196
- Title: Distilling Long-tailed Datasets
- Title(参考訳): 蒸留ロングテールデータセット
- Authors: Zhenghao Zhao, Haoxuan Wang, Yuzhang Shang, Kai Wang, Yan Yan,
- Abstract要約: 本稿では,偏りのある専門家の軌道と直接一致することを避けるために,分布に依存しないマッチングを提案する。
また, 蒸留指導をエキスパートデカップリングで改善し, テールクラス性能を向上する。
この研究は長い尾のデータセット蒸留の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な試みとなった。
- 参考スコア(独自算出の注目度): 13.330572317331198
- License:
- Abstract: Dataset distillation aims to synthesize a small, information-rich dataset from a large one for efficient model training. However, existing dataset distillation methods struggle with long-tailed datasets, which are prevalent in real-world scenarios. By investigating the reasons behind this unexpected result, we identified two main causes: 1) The distillation process on imbalanced datasets develops biased gradients, leading to the synthesis of similarly imbalanced distilled datasets. 2) The experts trained on such datasets perform suboptimally on tail classes, resulting in misguided distillation supervision and poor-quality soft-label initialization. To address these issues, we first propose Distribution-agnostic Matching to avoid directly matching the biased expert trajectories. It reduces the distance between the student and the biased expert trajectories and prevents the tail class bias from being distilled to the synthetic dataset. Moreover, we improve the distillation guidance with Expert Decoupling, which jointly matches the decoupled backbone and classifier to improve the tail class performance and initialize reliable soft labels. This work pioneers the field of long-tailed dataset distillation, marking the first effective effort to distill long-tailed datasets.
- Abstract(参考訳): データセット蒸留は、効率的なモデルトレーニングのために、大規模なデータセットから、小さくて情報に富んだデータセットを合成することを目的としている。
しかし、既存のデータセット蒸留法は、現実世界のシナリオでよく見られる長い尾のデータセットと競合する。
この予期せぬ結果の背景にある理由を調査した結果、2つの主な原因が判明した。
1) 不均衡データセットの蒸留プロセスは偏り勾配を発達させ, 同様に不均衡な蒸留データセットを合成する。
2) これらのデータセットを訓練した専門家は, 蒸留監督の誤認や, 品質の悪いソフトラベルの初期化を招いた。
これらの問題に対処するために,我々はまず,偏りのある専門家の軌道と直接一致することを避けるために,分布に依存しないマッチングを提案する。
学生と偏見のある専門家の軌跡との距離を減らし、尾クラスの偏見が合成データセットに蒸留されるのを防ぐ。
さらに, 分離したバックボーンと分類器とを併用して蒸留法を改良し, テールクラス性能を向上し, 信頼性の高いソフトラベルを初期化する。
この研究は長い尾のデータセット蒸留の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な試みとなった。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Exploring the Impact of Dataset Bias on Dataset Distillation [10.742404631413029]
データセット蒸留(DD)におけるデータセットバイアスの影響について検討する。
DDは、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するテクニックである。
実験により、元のデータセットに存在するバイアスが合成データセットのパフォーマンスに大きな影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-03-24T06:10:22Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。