論文の概要: Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation
- arxiv url: http://arxiv.org/abs/2502.01865v1
- Date: Mon, 03 Feb 2025 22:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:44.696504
- Title: Enhancing Generalization via Sharpness-Aware Trajectory Matching for Dataset Condensation
- Title(参考訳): データセット凝縮のためのシャープネスを考慮した軌道マッチングによる一般化の促進
- Authors: Boyan Gao, Bo Zhao, Shreyank N Gowda, Xingrun Xing, Yibo Yang, Timothy Hospedales, David A. Clifton,
- Abstract要約: 学習した合成データセットの一般化能力を高めるシャープネス認識軌道マッチング(SATM)を導入する。
我々の手法は数学的に十分サポートされており、制御可能な計算オーバーヘッドとともに実装が容易である。
- 参考スコア(独自算出の注目度): 37.77454972709646
- License:
- Abstract: Dataset condensation aims to synthesize datasets with a few representative samples that can effectively represent the original datasets. This enables efficient training and produces models with performance close to those trained on the original sets. Most existing dataset condensation methods conduct dataset learning under the bilevel (inner- and outer-loop) based optimization. However, the preceding methods perform with limited dataset generalization due to the notoriously complicated loss landscape and expensive time-space complexity of the inner-loop unrolling of bilevel optimization. These issues deteriorate when the datasets are learned via matching the trajectories of networks trained on the real and synthetic datasets with a long horizon inner-loop. To address these issues, we introduce Sharpness-Aware Trajectory Matching (SATM), which enhances the generalization capability of learned synthetic datasets by optimising the sharpness of the loss landscape and objective simultaneously. Moreover, our approach is coupled with an efficient hypergradient approximation that is mathematically well-supported and straightforward to implement along with controllable computational overhead. Empirical evaluations of SATM demonstrate its effectiveness across various applications, including in-domain benchmarks and out-of-domain settings. Moreover, its easy-to-implement properties afford flexibility, allowing it to integrate with other advanced sharpness-aware minimizers. Our code will be released.
- Abstract(参考訳): Dataset Condensationは、オリジナルのデータセットを効果的に表現できるいくつかの代表的なサンプルでデータセットを合成することを目的としている。
これにより、効率的なトレーニングが可能になり、オリジナルのセットでトレーニングされたモデルに近いパフォーマンスのモデルを生成する。
既存のデータセット凝縮法の多くは、双方向(インナーおよび外ループ)ベースの最適化の下でデータセット学習を行う。
しかし、前述した手法は、2レベル最適化のインナーループの複雑なロスランドスケープと高価な時間空間の複雑さにより、限られたデータセットの一般化を行う。
これらの問題は、実際のデータセットと合成データセットでトレーニングされたネットワークの軌跡を、長い水平線内ループでマッチングすることで、データセットが学習されると悪化する。
これらの問題に対処するため,SATM(シャープネス・アウェア・トラジェクトリ・マッチング)を導入し,損失景観のシャープネスと目標を同時に最適化することにより,学習された合成データセットの一般化能力を向上させる。
さらに,本手法は,制御可能な計算オーバーヘッドとともに,数学的に良好にサポートされ,実装が容易な高次近似と結合する。
SATMの実証的な評価は、ドメイン内ベンチマークやドメイン外設定など、様々なアプリケーションで有効性を示す。
さらに、実装が容易で柔軟性があり、他の高度なシャープネス対応の最小化器と統合できる。
私たちのコードは解放されます。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Koopcon: A new approach towards smarter and less complex learning [13.053285552524052]
ビッグデータの時代、データセットの膨大な量と複雑さは、機械学習において大きな課題を引き起こします。
本稿では,クープマン演算子理論を背景とした,革新的オートエンコーダに基づくデータセット凝縮モデルを提案する。
人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用する。
論文 参考訳(メタデータ) (2024-05-22T17:47:14Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。