論文の概要: BACON: Bayesian Optimal Condensation Framework for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2406.01112v1
- Date: Mon, 3 Jun 2024 08:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:48:31.654331
- Title: BACON: Bayesian Optimal Condensation Framework for Dataset Distillation
- Title(参考訳): BACON: データセット蒸留のためのベイズ最適凝縮フレームワーク
- Authors: Zheng Zhou, Hongbo Zhao, Guangliang Cheng, Xiangtai Li, Shuchang Lyu, Wenquan Feng, Qi Zhao,
- Abstract要約: DDの文献にBACON(Bayesian optimal Condensation framework)を導入する。
BACONはDD問題を結合確率分布の予測リスク関数の最小化として定式化する。
BACONを複数のデータセットで検証し、既存の手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 33.2838758473062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset Distillation (DD) aims to distill knowledge from extensive datasets into more compact ones while preserving performance on the test set, thereby reducing storage costs and training expenses. However, existing methods often suffer from computational intensity, particularly exhibiting suboptimal performance with large dataset sizes due to the lack of a robust theoretical framework for analyzing the DD problem. To address these challenges, we propose the BAyesian optimal CONdensation framework (BACON), which is the first work to introduce the Bayesian theoretical framework to the literature of DD. This framework provides theoretical support for enhancing the performance of DD. Furthermore, BACON formulates the DD problem as the minimization of the expected risk function in joint probability distributions using the Bayesian framework. Additionally, by analyzing the expected risk function for optimal condensation, we derive a numerically feasible lower bound based on specific assumptions, providing an approximate solution for BACON. We validate BACON across several datasets, demonstrating its superior performance compared to existing state-of-the-art methods. For instance, under the IPC-10 setting, BACON achieves a 3.46% accuracy gain over the IDM method on the CIFAR-10 dataset and a 3.10% gain on the TinyImageNet dataset. Our extensive experiments confirm the effectiveness of BACON and its seamless integration with existing methods, thereby enhancing their performance for the DD task. Code and distilled datasets are available at BACON.
- Abstract(参考訳): Dataset Distillation (DD)は、テストセットのパフォーマンスを維持しながら、広範なデータセットからよりコンパクトなデータセットに知識を抽出することを目的としており、ストレージコストとトレーニングコストを削減している。
しかし、既存の手法は計算強度に悩まされることが多く、DD問題を解析するための堅牢な理論的枠組みが欠如しているため、特にデータセットサイズが大きな場合、最適以下の性能を示す。
これらの課題に対処するために,ベイズ理論フレームワークをDDの文献に導入する最初の試みであるBACON(Bayesian optimal Condensation framework)を提案する。
このフレームワークはDDの性能を高めるための理論的サポートを提供する。
さらに、BACONは、ベイズフレームワークを用いた結合確率分布における予測リスク関数の最小化としてDD問題を定式化する。
さらに、最適凝縮に対する予測リスク関数を解析することにより、特定の仮定に基づいて数値的に実現可能な下界を導出し、BACONの近似解を提供する。
BACONを複数のデータセットで検証し、既存の最先端手法と比較して優れた性能を示す。
例えば、ICC-10設定下では、BACONはCIFAR-10データセットのIDM法よりも3.46%精度が向上し、TinyImageNetデータセットの3.10%精度が向上する。
本研究では,BACONの有効性と既存手法とのシームレスな統合性を確認し,DDタスクの性能向上を図る。
コードと蒸留されたデータセットはBACONで入手できる。
関連論文リスト
- BEARD: Benchmarking the Adversarial Robustness for Dataset Distillation [26.008838112733432]
BEARDは、DM、IMM、BACONを含むDDメソッドの堅牢性を評価するために設計されたベンチマークである。
分析には、統合ベンチマーク、各種画像毎クラス(IPC)設定、および対人訓練の効果が含まれている。
論文 参考訳(メタデータ) (2024-11-14T08:05:34Z) - Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Bayesian Diffusion Models for 3D Shape Reconstruction [54.69889488052155]
本稿では,トップダウン(優先)情報をボトムアップ(データ駆動)手順と密結合することにより,効果的なベイズ推定を行う予測アルゴリズムを提案する。
3次元形状復元作業におけるBDMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-11T17:55:53Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Bayesian Optimization Meets Self-Distillation [6.300098713159858]
BOと自己蒸留を組み合わせたBOSSフレームワークを提案する。
BOSS は BO や SD よりも幅広いタスクで性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-04-25T09:12:37Z) - Theoretical Analysis of Offline Imitation With Supplementary Dataset [24.70187647541753]
行動的クローニングは豊富な専門家データから優れたポリシーを回復することができるが、専門家データが不十分な場合には失敗する可能性がある。
本稿では,少数の専門家データに加えて,補足データセットが利用可能である状況について考察する。
補足的データセットによる模倣学習は、創発的な実践的枠組みであるが、その理論的基礎は未開発のままである。
論文 参考訳(メタデータ) (2023-01-27T12:53:53Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。