Fugu-MT 論文翻訳(概要): Embarassingly Simple Dataset Distillation

論文の概要: Embarassingly Simple Dataset Distillation

arxiv url: http://arxiv.org/abs/2311.07025v1
Date: Mon, 13 Nov 2023 02:14:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 15:53:11.847089
Title: Embarassingly Simple Dataset Distillation
Title（参考訳）: 気まぐれに単純なデータセット蒸留
Authors: Feng Yunzhen, Vedantam Ramakrishna, Kempe Julia
Abstract要約: 本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dataset distillation extracts a small set of synthetic training samples from a large dataset with the goal of achieving competitive performance on test data when trained on this sample. In this work, we tackle dataset distillation at its core by treating it directly as a bilevel optimization problem. Re-examining the foundational back-propagation through time method, we study the pronounced variance in the gradients, computational burden, and long-term dependencies. We introduce an improved method: Random Truncated Backpropagation Through Time (RaT-BPTT) to address them. RaT-BPTT incorporates a truncation coupled with a random window, effectively stabilizing the gradients and speeding up the optimization while covering long dependencies. This allows us to establish new state-of-the-art for a variety of standard dataset benchmarks. A deeper dive into the nature of distilled data unveils pronounced intercorrelation. In particular, subsets of distilled datasets tend to exhibit much worse performance than directly distilled smaller datasets of the same size. Leveraging RaT-BPTT, we devise a boosting mechanism that generates distilled datasets that contain subsets with near optimal performance across different data budgets.
Abstract（参考訳）: データセット蒸留は、大規模なデータセットから少量の合成トレーニングサンプルを抽出し、このサンプル上でのトレーニング時にテストデータ上での競合性能を達成することを目的としている。本研究では,二段階最適化問題として直接扱うことにより,コアとなるデータセット蒸留に取り組む。時間的手法による基礎的バックプロパゲーションを再検討し,勾配,計算負担,長期依存性の顕著な相違について検討する。本稿では,Ratom Truncated Backpropagation Through Time (RaT-BPTT) を改良した手法を提案する。 RaT-BPTTはランダムウィンドウと組み合わされたトランケーションを導入し、勾配を効果的に安定化し、長い依存関係をカバーしながら最適化を高速化する。これにより、さまざまな標準データセットベンチマークのための新しい最先端を確立できます。蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。特に、蒸留データセットのサブセットは、同じサイズの直接蒸留された小さなデータセットよりも、はるかに悪いパフォーマンスを示す傾向がある。 RaT-BPTTを活用することで、さまざまなデータ予算でほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。

関連論文リスト

Swift Cross-Dataset Pruning: Enhancing Fine-Tuning Efficiency in Natural Language Understanding [2.379669478864599]
現在の微調整のためのクロスデータセットプルーニング技術は、しばしば計算に高価なサンプルランキングプロセスに依存している。我々は,TF-IDF埋め込みと幾何中央値を用いたSwift Cross-Dataset Pruning (SCDP)を提案する。 6つの多様なデータセットに対する実験結果から,様々なタスクやスケールにまたがる手法の有効性が示された。
論文参考訳（メタデータ） (2025-01-05T03:52:04Z)
Distilling Long-tailed Datasets [13.330572317331198]
本稿では,Long-tailed dataset Aware distillation (LAD) を新たに提案する。 LADは、学生と偏見のある専門家の軌跡の間の距離を減らし、テールクラスの偏見が合成データセットに蒸留されるのを防ぐ。この研究は長い尾のデータセット蒸留(LTDD)の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な取り組みとなった。
論文参考訳（メタデータ） (2024-08-24T15:36:36Z)
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。本手法はGAN内の階層層を系統的に探索する。さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文参考訳（メタデータ） (2024-06-09T09:15:54Z)
Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.02948004359488]
データセット蒸留(DD)は、豊富な分散情報を保持しながら、データセットを元のサイズの分数に蒸留することができる。この領域の最近の研究は、蒸留データセットで訓練されたモデルの精度向上に重点を置いている。そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-15T06:31:03Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文参考訳（メタデータ） (2023-12-14T13:19:33Z)
Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文参考訳（メタデータ） (2023-11-02T19:49:11Z)
Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文参考訳（メタデータ） (2023-07-16T15:58:19Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
On the Size and Approximation Error of Distilled Sets [57.61696480305911]
カーネル・インジェクション・ポイント(Kernel Inducing Points)などのデータセット蒸留のカーネル・リッジ回帰に基づく手法について理論的に考察する。我々は、RFF空間におけるその解が元のデータの解と一致するように、元の入力空間に小さな一組のインスタンスが存在することを証明した。 KRR溶液は、全入力データに最適化されたKRR溶液に対して近似を与えるこの蒸留されたインスタンスセットを用いて生成することができる。
論文参考訳（メタデータ） (2023-05-23T14:37:43Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。 FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-06-01T19:02:06Z)
Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (2022-03-22T17:58:59Z)
LiDAR dataset distillation within bayesian active learning framework: Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文参考訳（メタデータ） (2022-02-06T00:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。