論文の概要: Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling
- arxiv url: http://arxiv.org/abs/2511.18858v1
- Date: Mon, 24 Nov 2025 07:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.094544
- Title: Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling
- Title(参考訳): 長い尾のデータセット蒸留を再考する: ユニレベルフレームワーク
- Authors: Xiao Cui, Yulei Qin, Xinyue Li, Wengang Zhou, Hongsheng Li, Houqiang Li,
- Abstract要約: トラジェクトリに基づく手法の限界を再考することにより,長い尾のデータセット蒸留を再考する。
統計的アライメントの観点からバイアスをモデル化し、公正な監督を復元する。
提案手法は,CIFAR-100-LTで15.6%,Tiny-ImageNet-LTで11.8%向上する。
- 参考スコア(独自算出の注目度): 105.8570596633629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation creates a small distilled set that enables efficient training by capturing key information from the full dataset. While existing dataset distillation methods perform well on balanced datasets, they struggle under long-tailed distributions, where imbalanced class frequencies induce biased model representations and corrupt statistical estimates such as Batch Normalization (BN) statistics. In this paper, we rethink long-tailed dataset distillation by revisiting the limitations of trajectory-based methods, and instead adopt the statistical alignment perspective to jointly mitigate model bias and restore fair supervision. To this end, we introduce three dedicated components that enable unbiased recovery of distilled images and soft relabeling: (1) enhancing expert models (an observer model for recovery and a teacher model for relabeling) to enable reliable statistics estimation and soft-label generation; (2) recalibrating BN statistics via a full forward pass with dynamically adjusted momentum to reduce representation skew; (3) initializing synthetic images by incrementally selecting high-confidence and diverse augmentations via a multi-round mechanism that promotes coverage and diversity. Extensive experiments on four long-tailed benchmarks show consistent improvements over state-of-the-art methods across varying degrees of class imbalance.Notably, our approach improves top-1 accuracy by 15.6% on CIFAR-100-LT and 11.8% on Tiny-ImageNet-LT under IPC=10 and IF=10.
- Abstract(参考訳): データセットの蒸留は、完全なデータセットからキー情報をキャプチャすることで、効率的なトレーニングを可能にする小さな蒸留セットを生成する。
既存のデータセット蒸留法はバランスの取れたデータセットでよく機能するが、不均衡なクラス周波数がバイアス付きモデル表現やバッチ正規化(BN)統計などの統計的推定を誘導する、長い尾の分布の下ではうまく機能しない。
本稿では, トラジェクトリに基づく手法の限界を再考し, モデルバイアスを緩和し, 公正な監督を回復するために, 統計的アライメントの視点を採用することにより, 長期データセット蒸留を再考する。
そこで本研究では, 蒸留画像の非偏り回復とソフトレバリングを可能にする3つの専用成分を紹介する。(1) 専門家モデル(リカバリのためのオブザーバーモデルとリカリングのための教師モデル)を強化し, 信頼性の高い統計推定とソフトラベル生成を可能にすること, (2) 表現スキューを抑えるために動的に調整されたモーメントをフルフォワードパスでBN統計をリカレーションすること,(3) 高信頼度と多様な拡張を多ラウンド機構によって段階的に選択することによる合成画像の初期化。
CIFAR-100-LTでは15.6%, IPC=10では11.8%, IF=10ではTiny-ImageNet-LTでは11.8%の精度向上を実現した。
関連論文リスト
- Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation [39.47633542394261]
長期データセット蒸留におけるソフトラベルの重要性を強調した。
蒸留データセットで学習したモデルに対して,不均衡を考慮した一般化を導出する。
次に, 蒸留モデルと蒸留画像から得られた2つのソフトラベルバイアス源を同定した。
本稿では,Adaptive Soft-label Alignmentモジュールとして,絡み合ったバイアスを校正するADSAを提案する。
論文 参考訳(メタデータ) (2025-11-22T04:37:27Z) - Dataset Distillation for Super-Resolution without Class Labels and Pre-trained Models [22.094181812322574]
ディープニューラルネットワークのトレーニングはますます需要を増し、大規模なデータセットと重要な計算リソースを必要としている。
本稿では,クラスラベルや事前学習SRモデルを必要としない画像SRに対して,新しいデータ蒸留手法を提案する。
実験結果から,本手法はトレーニングデータを大幅に削減し,計算時間を削減するとともに,最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-09-18T09:25:51Z) - MGD$^3$: Mode-Guided Dataset Distillation using Diffusion Models [50.2406741245418]
本稿では,事前学習した拡散モデルを利用したモード誘導拡散モデルを提案する。
提案手法は,異なるデータモードを識別するモード発見,クラス内多様性を高めるモード誘導,および合成試料中のアーティファクトを緩和するモード誘導という3段階のデータセットの多様性に対処する。
本手法は, 蒸留損失を伴う微調整拡散モデルの必要性を排除し, 計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-05-25T03:40:23Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning [47.64252639582435]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - Data-iterative Optimization Score Model for Stable Ultra-Sparse-View CT
Reconstruction [2.2336243882030025]
スパースビューCT再構成のための反復最適化データスコアリングモデル(DOSM)を提案する。
DOSMはデータの一貫性をデータ一貫性要素に統合し、測定データと生成モデルの制約を効果的にバランスさせる。
我々はDOSM更新の最適化に従来の手法を活用している。
論文 参考訳(メタデータ) (2023-08-28T09:23:18Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。