Fugu-MT 論文翻訳(概要): Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment

論文の概要: Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment

arxiv url: http://arxiv.org/abs/2409.17612v1
Date: Thu, 26 Sep 2024 08:03:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-28 22:36:10.307094
Title: Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment
Title（参考訳）: 多様性駆動型合成: データセット蒸留の強化 Directed Weight Adjustment
Authors: Jiawei Du, Xin Zhang, Juncheng Hu, Wenxin Huang, Joey Tianyi Zhou
Abstract要約: 多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
参考スコア（独自算出の注目度）: 41.988037242961575
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The sharp increase in data-related expenses has motivated research into condensing datasets while retaining the most informative features. Dataset distillation has thus recently come to the fore. This paradigm generates synthetic dataset that are representative enough to replace the original dataset in training a neural network. To avoid redundancy in these synthetic datasets, it is crucial that each element contains unique features and remains diverse from others during the synthesis stage. In this paper, we provide a thorough theoretical and empirical analysis of diversity within synthesized datasets. We argue that enhancing diversity can improve the parallelizable yet isolated synthesizing approach. Specifically, we introduce a novel method that employs dynamic and directed weight adjustment techniques to modulate the synthesis process, thereby maximizing the representativeness and diversity of each synthetic instance. Our method ensures that each batch of synthetic data mirrors the characteristics of a large, varying subset of the original dataset. Extensive experiments across multiple datasets, including CIFAR, Tiny-ImageNet, and ImageNet-1K, demonstrate the superior performance of our method, highlighting its effectiveness in producing diverse and representative synthetic datasets with minimal computational expense.
Abstract（参考訳）: データ関連費用の急激な増加は、最も有益な特徴を維持しながらデータセットを凝縮する研究を動機付けている。そのため、近年はデータセットの蒸留が盛んになっている。このパラダイムは、ニューラルネットワークをトレーニングする際の元のデータセットを置き換えるのに十分な、合成データセットを生成する。これらの合成データセットの冗長性を避けるためには、各要素が固有の特徴を持ち、合成段階において他の要素と異なるままであることが重要である。本稿では, 合成データセットの多様性に関する理論的, 実証的な分析を行う。多様性の向上は並列化可能であるが孤立した合成アプローチを改善することができると我々は主張する。具体的には,動的かつ指向的な重み調整技術を用いて合成過程を変調し,各合成インスタンスの代表性と多様性を最大化する手法を提案する。提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。 CIFAR, Tiny-ImageNet, ImageNet-1Kなどの多種多様なデータセットを対象とした大規模な実験を行い, 計算コストを最小に抑えた多種多様な合成データセットの創出の有効性を明らかにした。

関連論文リスト

Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation [0.7560883489000576]
画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
論文参考訳（メタデータ） (2025-05-21T08:46:29Z)
Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文参考訳（メタデータ） (2025-05-10T13:53:49Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Few-shot LLM Synthetic Data with Distribution Matching [37.55363714371521]
大規模言語モデル(LLM)は、より小さなモデルの性能を高めるために高品質な合成データを生成する。 LLMの生成した合成データは、しばしばキー言語属性の実際のデータとは異なる。鍵属性分布マッチングに基づく合成データ生成およびフィルタリングフレームワークであるSynAlignを紹介する。
論文参考訳（メタデータ） (2025-02-09T16:43:32Z)
Learn2Synth: Learning Optimal Data Synthesis Using Hypergradients [8.437109106999443]
合成によるドメインランダム化は、入力画像の領域に関してバイアスのないネットワークをトレーニングするための強力な戦略である。本稿では,少数の実ラベル付きデータを用いて合成パラメータを学習する新しい手法であるLearner2 Synthを紹介する。このアプローチにより、トレーニング手順は、セグメンテーションネットワークをトレーニングするためにこれらの実例を使用することなく、実際のラベル付き例の恩恵を受けることができる。
論文参考訳（メタデータ） (2024-11-23T00:52:49Z)
SAU: A Dual-Branch Network to Enhance Long-Tailed Recognition via Generative Models [9.340077455871736]
画像認識における長い尾の分布は、いくつかの支配階級間の深刻な不均衡のため、大きな課題となる。近年,画像分類のための合成データ作成に大規模な生成モデルが用いられている。本稿では,データ不均衡の影響を解消するために,長い尾のデータセットを補完する合成データを提案する。
論文参考訳（メタデータ） (2024-08-29T05:33:59Z)
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T12:22:41Z)
A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets [4.389150156866014]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文参考訳（メタデータ） (2024-02-06T13:20:46Z)
Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文参考訳（メタデータ） (2023-11-02T19:49:11Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。 PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文参考訳（メタデータ） (2023-10-10T20:04:44Z)
Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching [19.8751746334929]
合成データセットのサイズが大きくなるにつれて有効なアルゴリズムを提案する。実験により, 一致する軌道の訓練段階が, 蒸留データセットの有効性に大きく影響していることが判明した。そこで我々は,軌道マッチングに基づく手法を大規模合成データセットに拡張することに成功している。
論文参考訳（メタデータ） (2023-10-09T14:57:41Z)
Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-02T17:59:31Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。