Fugu-MT 論文翻訳(概要): Distilling Long-tailed Datasets

論文の概要: Distilling Long-tailed Datasets

arxiv url: http://arxiv.org/abs/2408.14506v2
Date: Wed, 19 Mar 2025 01:46:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 15:29:57.309556
Title: Distilling Long-tailed Datasets
Title（参考訳）: 蒸留ロングテールデータセット
Authors: Zhenghao Zhao, Haoxuan Wang, Yuzhang Shang, Kai Wang, Yan Yan,
Abstract要約: 本稿では,偏りのある専門家の軌道と直接一致することを避けるために,分布に依存しないマッチングを提案する。また, 蒸留指導をエキスパートデカップリングで改善し, テールクラス性能を向上する。この研究は長い尾のデータセット蒸留の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な試みとなった。
参考スコア（独自算出の注目度）: 13.330572317331198
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dataset distillation aims to synthesize a small, information-rich dataset from a large one for efficient model training. However, existing dataset distillation methods struggle with long-tailed datasets, which are prevalent in real-world scenarios. By investigating the reasons behind this unexpected result, we identified two main causes: 1) The distillation process on imbalanced datasets develops biased gradients, leading to the synthesis of similarly imbalanced distilled datasets. 2) The experts trained on such datasets perform suboptimally on tail classes, resulting in misguided distillation supervision and poor-quality soft-label initialization. To address these issues, we first propose Distribution-agnostic Matching to avoid directly matching the biased expert trajectories. It reduces the distance between the student and the biased expert trajectories and prevents the tail class bias from being distilled to the synthetic dataset. Moreover, we improve the distillation guidance with Expert Decoupling, which jointly matches the decoupled backbone and classifier to improve the tail class performance and initialize reliable soft labels. This work pioneers the field of long-tailed dataset distillation, marking the first effective effort to distill long-tailed datasets.
Abstract（参考訳）: データセット蒸留は、効率的なモデルトレーニングのために、大規模なデータセットから、小さくて情報に富んだデータセットを合成することを目的としている。しかし、既存のデータセット蒸留法は、現実世界のシナリオでよく見られる長い尾のデータセットと競合する。この予期せぬ結果の背景にある理由を調査した結果、2つの主な原因が判明した。 1) 不均衡データセットの蒸留プロセスは偏り勾配を発達させ, 同様に不均衡な蒸留データセットを合成する。 2) これらのデータセットを訓練した専門家は, 蒸留監督の誤認や, 品質の悪いソフトラベルの初期化を招いた。これらの問題に対処するために,我々はまず,偏りのある専門家の軌道と直接一致することを避けるために,分布に依存しないマッチングを提案する。学生と偏見のある専門家の軌跡との距離を減らし、尾クラスの偏見が合成データセットに蒸留されるのを防ぐ。さらに, 分離したバックボーンと分類器とを併用して蒸留法を改良し, テールクラス性能を向上し, 信頼性の高いソフトラベルを初期化する。この研究は長い尾のデータセット蒸留の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な試みとなった。

関連論文リスト

Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。 CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文参考訳（メタデータ） (2025-01-13T18:59:48Z)
Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文参考訳（メタデータ） (2025-01-08T00:43:31Z)
Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文参考訳（メタデータ） (2024-06-06T18:52:28Z)
Exploring the Impact of Dataset Bias on Dataset Distillation [10.742404631413029]
データセット蒸留(DD)におけるデータセットバイアスの影響について検討する。 DDは、オリジナルのデータセットから必須情報を保持する小さなデータセットを合成するテクニックである。実験により、元のデータセットに存在するバイアスが合成データセットのパフォーマンスに大きな影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-03-24T06:10:22Z)
Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.02948004359488]
データセット蒸留(DD)は、豊富な分散情報を保持しながら、データセットを元のサイズの分数に蒸留することができる。この領域の最近の研究は、蒸留データセットで訓練されたモデルの精度向上に重点を置いている。そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-15T06:31:03Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文参考訳（メタデータ） (2023-11-13T02:14:54Z)
AST: Effective Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文参考訳（メタデータ） (2023-10-16T16:13:53Z)
Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文参考訳（メタデータ） (2023-07-16T15:58:19Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。本稿ではDDの最近の進歩とその応用について概説する。
論文参考訳（メタデータ） (2023-01-17T17:03:28Z)
A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文参考訳（メタデータ） (2023-01-13T15:11:38Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (2022-03-22T17:58:59Z)
LiDAR dataset distillation within bayesian active learning framework: Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文参考訳（メタデータ） (2022-02-06T00:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。