論文の概要: DRUPI: Dataset Reduction Using Privileged Information
- arxiv url: http://arxiv.org/abs/2410.01611v2
- Date: Wed, 9 Oct 2024 06:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:44:34.857209
- Title: DRUPI: Dataset Reduction Using Privileged Information
- Title(参考訳): DRUPI:予備情報を用いたデータセットの削減
- Authors: Shaobo Wang, Yantai Yang, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Xuming Hu, Linfeng Zhang,
- Abstract要約: データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留する。
本稿では,DRUPI(Privleged Information)を用いたデータセットリダクションについて紹介する。
我々の研究結果によると、効果的な特徴ラベルは過度に差別的かつ過度に多様性があり、中程度のレベルがデータセットの有効性を改善するのに最適であることが判明した。
- 参考スコア(独自算出の注目度): 20.59889438709671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset reduction (DR) seeks to select or distill samples from large datasets into smaller subsets while preserving performance on target tasks. Existing methods primarily focus on pruning or synthesizing data in the same format as the original dataset, typically the input data and corresponding labels. However, in DR settings, we find it is possible to synthesize more information beyond the data-label pair as an additional learning target to facilitate model training. In this paper, we introduce Dataset Reduction Using Privileged Information (DRUPI), which enriches DR by synthesizing privileged information alongside the reduced dataset. This privileged information can take the form of feature labels or attention labels, providing auxiliary supervision to improve model learning. Our findings reveal that effective feature labels must balance between being overly discriminative and excessively diverse, with a moderate level proving optimal for improving the reduced dataset's efficacy. Extensive experiments on ImageNet, CIFAR-10/100, and Tiny ImageNet demonstrate that DRUPI integrates seamlessly with existing dataset reduction methods, offering significant performance gains. *The code will be released after the paper is accepted.*
- Abstract(参考訳): データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留することを目指している。
既存の手法は主に、入力データと対応するラベルである元のデータセットと同じフォーマットでデータのプルーニングや合成に重点を置いている。
しかし、DR設定では、モデルトレーニングを容易にするための追加の学習ターゲットとして、データラベルペア以上の情報を合成することが可能である。
本稿では,DRUPI(Dataset Reduction Using Privileged Information)を提案する。
この特権情報は、特徴ラベルやアテンションラベルの形を取ることができ、モデル学習を改善するための補助的な監督を提供する。
以上の結果から, 効果的な特徴ラベルは, 過度に差別的かつ過度に多様であることのバランスをとらなければならないことが明らかとなった。
ImageNet、CIFAR-10/100、Tiny ImageNetの大規模な実験では、DRUPIが既存のデータセット削減メソッドとシームレスに統合され、大幅なパフォーマンス向上を実現している。
※論文の受理後、コードは解放される。
※
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - GIFT: Unlocking Full Potential of Labels in Distilled Dataset at Near-zero Cost [7.05277588099645]
ラベルのフル活用を強調することによって,新しい視点を導入する。
本稿では,ソフトラベルの精細化とコサイン類似度に基づく損失関数を含むGIFTを紹介する。
GIFTは、計算コストを増大させることなく、最先端のデータセット蒸留法を一貫して強化する。
論文 参考訳(メタデータ) (2024-05-23T16:02:30Z) - Self-supervised Dataset Distillation: A Good Compression Is All You Need [23.02066055996762]
SC-DDは, データセット蒸留のための簡易かつ効果的な自己教師圧縮フレームワークである。
提案したSC-DDは、より大規模なモデルを用いる場合、従来の最先端のデータセット蒸留法よりも優れている。
CIFAR-100, Tiny-ImageNet, ImageNet-1Kデータセットを用いて提案手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-11T17:56:40Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - The Stanford Drone Dataset is More Complex than We Think: An Analysis of
Key Characteristics [2.064612766965483]
スタンフォード・ドローン・データセット(SDD)の特徴について論じる。
この不便さがユーザに提供する情報を減らし,パフォーマンスに与える影響を実証する。
私たちの意図は、今後このデータセットに適用されるパフォーマンスとメソッドを向上させると同時に、新しいユーザのためのデータセットの明らかでない特徴を明確化することにあります。
論文 参考訳(メタデータ) (2022-03-22T13:58:14Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。