論文の概要: Loss-Curvature Matching for Dataset Selection and Condensation
- arxiv url: http://arxiv.org/abs/2303.04449v1
- Date: Wed, 8 Mar 2023 08:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:41:47.266537
- Title: Loss-Curvature Matching for Dataset Selection and Condensation
- Title(参考訳): データセットの選択と凝縮のための損失曲線マッチング
- Authors: Seungjae Shin, Heesun Bae, Donghyeok Shin, Weonyoung Joo, Il-Chul Moon
- Abstract要約: 大規模なデータセット上でニューラルネットワークをトレーニングするには、かなりの計算コストが必要になる。
本稿では, LCMat という, 原データセットのロス曲率とモデルパラメータ空間上の縮小データセットをマッチングする手法を提案する。
- 参考スコア(独自算出の注目度): 13.354005476925176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training neural networks on a large dataset requires substantial
computational costs. Dataset reduction selects or synthesizes data instances
based on the large dataset, while minimizing the degradation in generalization
performance from the full dataset. Existing methods utilize the neural network
during the dataset reduction procedure, so the model parameter becomes
important factor in preserving the performance after reduction. By depending
upon the importance of parameters, this paper introduces a new reduction
objective, coined LCMat, which Matches the Loss Curvatures of the original
dataset and reduced dataset over the model parameter space, more than the
parameter point. This new objective induces a better adaptation of the reduced
dataset on the perturbed parameter region than the exact point matching.
Particularly, we identify the worst case of the loss curvature gap from the
local parameter region, and we derive the implementable upper bound of such
worst-case with theoretical analyses. Our experiments on both coreset selection
and condensation benchmarks illustrate that LCMat shows better generalization
performances than existing baselines.
- Abstract(参考訳): 大規模なデータセットでニューラルネットワークをトレーニングするには、かなりの計算コストが必要です。
データセットの削減は、データセット全体から一般化性能の低下を最小限に抑えながら、大きなデータセットに基づいてデータインスタンスを選択または合成する。
既存の手法ではデータセットの縮小処理中にニューラルネットワークを利用するため、モデルパラメータは縮小後の性能を維持する上で重要な要素となる。
パラメータの重要性に依拠して,本論文では,パラメータ点よりも元のデータセットの損失曲率とモデルパラメータ空間上の縮小データセットとをマッチングする,lcmatという新しい還元目標を提案する。
この新たな目的は、正確な点マッチングよりも摂動パラメータ領域に縮小されたデータセットを適応させる。
特に,局所パラメータ領域から損失曲率ギャップの最悪の場合を特定し,理論的解析により,そのような最悪の場合の実装可能な上限を導出する。
コアセット選択と凝縮ベンチマークによる実験により, LCMatは既存のベースラインよりも優れた一般化性能を示した。
関連論文リスト
- Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Low-Rank Representations Meets Deep Unfolding: A Generalized and
Interpretable Network for Hyperspectral Anomaly Detection [41.50904949744355]
現在のハイパースペクトル異常検出(HAD)ベンチマークデータセットは、低解像度、単純なバックグラウンド、検出データの小さなサイズに悩まされている。
これらの要因は、ロバスト性の観点からよく知られた低ランク表現(LRR)モデルの性能も制限する。
我々は、複雑なシナリオにおけるHADアルゴリズムの堅牢性を改善するために、新しいHADベンチマークデータセットであるAIR-HADを構築した。
論文 参考訳(メタデータ) (2024-02-23T14:15:58Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Random Linear Projections Loss for Hyperplane-Based Optimization in Neural Networks [22.348887008547653]
この研究はRandom Linear Projections (RLP)損失を導入し、これはデータ内の幾何学的関係を利用してトレーニング効率を向上させる新しいアプローチである。
ベンチマークデータセットと合成例を用いて実施した経験的評価では、従来の損失関数でトレーニングされたニューラルネットワークは、従来の損失関数でトレーニングされたニューラルネットワークよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2023-11-21T05:22:39Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Hyperparameter Optimization through Neural Network Partitioning [11.6941692990626]
本稿では,ニューラルネットワークにおけるハイパーパラメータの最適化をシンプルかつ効率的に行う方法を提案する。
本手法では,トレーニングデータとニューラルネットワークモデルをデータシャードとパラメータ分割に$K$に分割する。
我々は、この目的を単一のトレーニングランで様々なハイパーパラメータを最適化するために適用できることを実証した。
論文 参考訳(メタデータ) (2023-04-28T11:24:41Z) - Joint Edge-Model Sparse Learning is Provably Efficient for Graph Neural
Networks [89.28881869440433]
本稿では,グラフニューラルネットワーク(GNN)における結合エッジモデルスパース学習の理論的特徴について述べる。
解析学的には、重要なノードをサンプリングし、最小のマグニチュードでプルーニングニューロンをサンプリングすることで、サンプルの複雑さを減らし、テスト精度を損なうことなく収束を改善することができる。
論文 参考訳(メタデータ) (2023-02-06T16:54:20Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z) - A Data-Centric Approach for Training Deep Neural Networks with Less Data [1.9014535120129343]
本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。
小さなデータセットでトレーニング中に発生する課題について論じる。
本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-07T16:41:52Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。