論文の概要: Enhancing Dataset Distillation via Non-Critical Region Refinement
- arxiv url: http://arxiv.org/abs/2503.18267v1
- Date: Mon, 24 Mar 2025 01:20:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:23.033243
- Title: Enhancing Dataset Distillation via Non-Critical Region Refinement
- Title(参考訳): 非臨界領域精製によるデータセット蒸留の促進
- Authors: Minh-Tuan Tran, Trung Le, Xuan-May Le, Thanh-Toan Do, Dinh Phung,
- Abstract要約: 本研究では,NRR-DD法(Non-Critical Region Refinement dataset Distillation)を提案する。
また,距離ベース代表者(DBR)の知識伝達についても紹介し,訓練におけるソフトラベルの必要性を排除した。
実験結果から,NRR-DDは,小規模・大規模両方のデータセットで最先端の性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 29.858754062202213
- License:
- Abstract: Dataset distillation has become a popular method for compressing large datasets into smaller, more efficient representations while preserving critical information for model training. Data features are broadly categorized into two types: instance-specific features, which capture unique, fine-grained details of individual examples, and class-general features, which represent shared, broad patterns across a class. However, previous approaches often struggle to balance these features-some focus solely on class-general patterns, neglecting finer instance details, while others prioritize instance-specific features, overlooking the shared characteristics essential for class-level understanding. In this paper, we introduce the Non-Critical Region Refinement Dataset Distillation (NRR-DD) method, which preserves instance-specific details and fine-grained regions in synthetic data while enriching non-critical regions with class-general information. This approach enables models to leverage all pixel information, capturing both feature types and enhancing overall performance. Additionally, we present Distance-Based Representative (DBR) knowledge transfer, which eliminates the need for soft labels in training by relying on the distance between synthetic data predictions and one-hot encoded labels. Experimental results show that NRR-DD achieves state-of-the-art performance on both small- and large-scale datasets. Furthermore, by storing only two distances per instance, our method delivers comparable results across various settings. The code is available at https://github.com/tmtuan1307/NRR-DD.
- Abstract(参考訳): データセットの蒸留は、大規模なデータセットをより小さく、より効率的な表現に圧縮し、モデルのトレーニングに重要な情報を保存するための一般的な方法となっている。
データ機能は2つのタイプに大別される: 個々の例のユニークできめ細かい詳細をキャプチャするインスタンス特化機能と、クラスをまたいだ広義のパターンを表現するクラス一般機能である。
しかしながら、以前のアプローチでは、これらの機能のバランスをとるのに苦労することが多く、クラス全般のパターンにのみ焦点をあて、インスタンスの詳細を細分化することを無視したり、クラスレベルの理解に不可欠な共有特性を見越して、インスタンス固有のフィーチャを優先順位付けしたりしていました。
本稿では,NRR-DD法(Non-Critical Region Refinement Dataset Distillation)を提案する。
このアプローチにより、モデルがすべてのピクセル情報を活用することができ、両方の特徴型をキャプチャし、全体的なパフォーマンスを向上させることができる。
さらに、合成データ予測とワンホット符号化ラベルとの距離に依存することにより、訓練におけるソフトラベルの必要性を解消する、距離ベース代表者(DBR)知識伝達を提案する。
実験結果から,NRR-DDは,小規模・大規模両方のデータセットで最先端の性能を実現することがわかった。
さらに、インスタンス毎に2つの距離しか保存しないので、様々な設定で同等の結果が得られます。
コードはhttps://github.com/tmtuan1307/NRR-DDで公開されている。
関連論文リスト
- DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Reprint: a randomized extrapolation based on principal components for data augmentation [19.797216197418926]
本稿では,不均衡なデータ分類のための,シンプルで効果的な隠れ空間データ拡張手法を提案する。
各クラス内のサンプルの隠れスペース表現を与えられたREPRINTは、ランダムな方法で、ターゲットクラスの拡張例を外挿する。
この方法は、拡張例のために新しい軟質ラベルを合成できるラベル改質成分を含む。
論文 参考訳(メタデータ) (2022-04-26T01:38:47Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。