Fugu-MT 論文翻訳(概要): Dataset Distillation via Factorization

論文の概要: Dataset Distillation via Factorization

arxiv url: http://arxiv.org/abs/2210.16774v1
Date: Sun, 30 Oct 2022 08:36:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 16:07:54.354474
Title: Dataset Distillation via Factorization
Title（参考訳）: 因子化によるデータセット蒸留
Authors: Songhua Liu, Kai Wang, Xingyi Yang, Jingwen Ye, Xinchao Wang
Abstract要約: 既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。 emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
参考スコア（独自算出の注目度）: 58.8114016318593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study \xw{dataset distillation (DD)}, from a novel perspective and introduce a \emph{dataset factorization} approach, termed \emph{HaBa}, which is a plug-and-play strategy portable to any existing DD baseline. Unlike conventional DD approaches that aim to produce distilled and representative samples, \emph{HaBa} explores decomposing a dataset into two components: data \emph{Ha}llucination networks and \emph{Ba}ses, where the latter is fed into the former to reconstruct image samples. The flexible combinations between bases and hallucination networks, therefore, equip the distilled data with exponential informativeness gain, which largely increase the representation capability of distilled datasets. To furthermore increase the data efficiency of compression results, we further introduce a pair of adversarial contrastive constraints on the resultant hallucination networks and bases, which increase the diversity of generated images and inject more discriminant information into the factorization. Extensive comparisons and experiments demonstrate that our method can yield significant improvement on downstream classification tasks compared with previous state of the arts, while reducing the total number of compressed parameters by up to 65\%. Moreover, distilled datasets by our approach also achieve \textasciitilde10\% higher accuracy than baseline methods in cross-architecture generalization. Our code is available \href{https://github.com/Huage001/DatasetFactorization}{here}.
Abstract（参考訳）: 本稿では,新しい視点から<xw{dataset distillation (dd) を考察し,既存のddベースラインに対応可能なプラグ・アンド・プレイ戦略である<emph{dataset factorization} アプローチを導入する。蒸留と代表的なサンプルの生成を目的とした従来のddアプローチとは異なり、\emph{haba}はデータセットを2つのコンポーネントに分解する: data \emph{ha}llucination networksと \emph{ba}sesであり、後者は前者へ供給され、画像サンプルを再構築する。塩基と幻覚ネットワークの柔軟な組み合わせにより、蒸留したデータに指数的情報性ゲインを付与し、蒸留したデータセットの表現能力を大幅に向上させる。さらに、圧縮結果のデータ効率を向上させるために、生成した画像の多様性を高め、因子化により多くの識別情報を注入する、結果の幻覚ネットワークとベースに対する対向的コントラスト制約を導入する。広範な比較および実験により,圧縮パラメータの総数を最大65\%削減しつつ,従来のアーツに比べて下流分類タスクにおいて有意に改善できることが示されている。さらに,このアプローチによる蒸留データセットは,クロスアーキテクチャ一般化におけるベースライン法よりも高い精度を実現している。私たちのコードは href{https://github.com/Huage001/DatasetFactorization}{here} で利用可能です。

関連論文リスト

Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation [19.552569546864913]
本稿では,画像とその自己教師付き表現を蒸留セットに蒸留する手法を提案する。この方法では、実データセットからリッチな情報を効果的に抽出し、クロスアーキテクチャの一般化性を高めた蒸留セットを得る。特に、異なる低次元の基底を用いて、画像や表現に革新的なパラメータ化を導入する。
論文参考訳（メタデータ） (2025-07-29T02:51:56Z)
Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling [31.51048512214796]
データセット蒸留は、オリジナルのデータセットに匹敵するパフォーマンスを達成できるコンパクトで高品質な合成データセットを生成することを目的としている。本稿では, 目標課題の要件をよりよく検討する難易度の概念を取り入れた, 生成データセット蒸留のためのタスク固有サンプリング戦略を提案する。実験の結果,提案手法の有効性を実証し,他の下流タスクの性能向上の可能性を示した。
論文参考訳（メタデータ） (2025-07-04T06:38:02Z)
Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文参考訳（メタデータ） (2025-01-13T20:41:52Z)
Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation [18.474302012851087]
そこで本研究では,データセット蒸留のための2段階の解法を提案する。まず、最も情報性の高いパッチのみを選択して、コアセットを形成することでデータセットを圧縮する。次に、この圧縮された集合をリアルタイムで動的に拡張するために、生成基礎モデルを活用する。いくつかの大規模データセット蒸留ベンチマークでは,最先端技術と比較して10%以上の顕著な改善がみられた。
論文参考訳（メタデータ） (2024-12-05T23:40:27Z)
Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。 SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文参考訳（メタデータ） (2024-08-22T15:20:32Z)
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。本手法はGAN内の階層層を系統的に探索する。さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文参考訳（メタデータ） (2024-06-09T09:15:54Z)
Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。 DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文参考訳（メタデータ） (2024-03-11T14:07:53Z)
Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文参考訳（メタデータ） (2023-09-14T00:40:07Z)
Dataset Distillation Meets Provable Subset Selection [14.158845925610438]
データセット蒸留は、大規模なトレーニングデータセットを、その性能を維持する小さな合成データセットに圧縮するために提案されている。本稿では, 重要点を特定し, 余剰点を除去することにより, 蒸留セットを初期化するための, 実証可能なサンプリングベースアプローチを提案する。さらに,次のバッチをランダムにサンプリングするのではなく,''サンプル点の蒸留セットをトレーニングすることで,データセットの蒸留とデータサブセット選択のアイデアを融合する。
論文参考訳（メタデータ） (2023-07-16T15:58:19Z)
Towards Efficient Deep Hashing Retrieval: Condensing Your Data via Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T13:23:55Z)
Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文参考訳（メタデータ） (2023-04-26T10:36:40Z)
ScoreMix: A Scalable Augmentation Strategy for Training GANs with Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。 ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文参考訳（メタデータ） (2022-10-27T02:55:15Z)
DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。 DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文参考訳（メタデータ） (2022-09-12T15:01:04Z)
Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文参考訳（メタデータ） (2022-01-24T14:12:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。