論文の概要: CAFE: Learning to Condense Dataset by Aligning Features
- arxiv url: http://arxiv.org/abs/2203.01531v1
- Date: Thu, 3 Mar 2022 05:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 16:16:00.443725
- Title: CAFE: Learning to Condense Dataset by Aligning Features
- Title(参考訳): CAFE: 特徴の調整によるデータセットの理解
- Authors: Kai Wang, Bo Zhao, Xiangyu Peng, Zheng Zhu, Shuo Yang, Shuo Wang, Guan
Huang, Hakan Bilen, Xinchao Wang, and Yang You
- Abstract要約: 本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
- 参考スコア(独自算出の注目度): 72.99394941348757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset condensation aims at reducing the network training effort through
condensing a cumbersome training set into a compact synthetic one.
State-of-the-art approaches largely rely on learning the synthetic data by
matching the gradients between the real and synthetic data batches. Despite the
intuitive motivation and promising results, such gradient-based methods, by
nature, easily overfit to a biased set of samples that produce dominant
gradients, and thus lack global supervision of data distribution. In this
paper, we propose a novel scheme to Condense dataset by Aligning FEatures
(CAFE), which explicitly attempts to preserve the real-feature distribution as
well as the discriminant power of the resulting synthetic set, lending itself
to strong generalization capability to various architectures. At the heart of
our approach is an effective strategy to align features from the real and
synthetic data across various scales, while accounting for the classification
of real samples. Our scheme is further backed up by a novel dynamic bi-level
optimization, which adaptively adjusts parameter updates to prevent
over-/under-fitting. We validate the proposed CAFE across various datasets, and
demonstrate that it generally outperforms the state of the art: on the SVHN
dataset, for example, the performance gain is up to 11%. Extensive experiments
and analyses verify the effectiveness and necessity of proposed designs.
- Abstract(参考訳): Dataset Condensationは、面倒なトレーニングセットをコンパクトな合成セットに凝縮することで、ネットワークトレーニングの労力を削減することを目的としている。
最先端のアプローチは、実データバッチと合成データバッチ間の勾配を一致させることで、合成データの学習に大きく依存する。
直感的なモチベーションと有望な結果にもかかわらず、このような勾配ベースの手法は、本質的には、優占的な勾配を生み出すバイアスのあるサンプルセットに簡単に過剰に適合し、従って、データ分布のグローバルな監視を欠いている。
本稿では,実特徴分布の保存と合成集合の識別力の保持を明示的に試み,様々なアーキテクチャへの強力な一般化能力に自らを貸与する特徴の整列化(cafe)によってデータセットを凝縮する新しい手法を提案する。
我々のアプローチの核心は、実サンプルの分類を考慮しつつ、様々なスケールにわたる実データと合成データの特徴を整合させる効果的な戦略である。
さらに,パラメータ更新を適応的に調整し,オーバー・アンダー・フィッティングを防止する動的バイレベル最適化が提案されている。
提案したCAFEをさまざまなデータセットで検証し,SVHNデータセットでは最大11%のパフォーマンス向上が達成された。
大規模な実験と分析により,提案設計の有効性と必要性が検証された。
関連論文リスト
- Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis [55.65459867300319]
LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。
最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。
本稿では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する新しい手法であるReference-Level Feedbackを提案する。
論文 参考訳(メタデータ) (2025-02-06T21:29:00Z) - Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation [37.77454972709646]
学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。
我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
論文 参考訳(メタデータ) (2025-02-03T22:30:06Z) - Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。
合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文 参考訳(メタデータ) (2024-12-13T08:10:47Z) - Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。
提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。
提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-12-06T23:36:36Z) - Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。