論文の概要: Dataset Condensation with Latent Quantile Matching
- arxiv url: http://arxiv.org/abs/2406.09860v1
- Date: Fri, 14 Jun 2024 09:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:24:30.123192
- Title: Dataset Condensation with Latent Quantile Matching
- Title(参考訳): 潜在量子マッチングを用いたデータセットの凝縮
- Authors: Wei Wei, Tom De Schepper, Kevin Mets,
- Abstract要約: 電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
- 参考スコア(独自算出の注目度): 5.466962214217334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset condensation (DC) methods aim to learn a smaller synthesized dataset with informative data records to accelerate the training of machine learning models. Current distribution matching (DM) based DC methods learn a synthesized dataset by matching the mean of the latent embeddings between the synthetic and the real dataset. However two distributions with the same mean can still be vastly different. In this work we demonstrate the shortcomings of using Maximum Mean Discrepancy to match latent distributions i.e. the weak matching power and lack of outlier regularization. To alleviate these shortcomings we propose our new method: Latent Quantile Matching (LQM) which matches the quantiles of the latent embeddings to minimize the goodness of fit test statistic between two distributions. Empirical experiments on both image and graph-structured datasets show that LQM matches or outperforms previous state of the art in distribution matching based DC. Moreover we show that LQM improves the performance in continual graph learning (CGL) setting where memory efficiency and privacy can be important. Our work sheds light on the application of DM based DC for CGL.
- Abstract(参考訳): Dataset Condensation (DC) 手法は,機械学習モデルのトレーニングを高速化するために,情報的データ記録を持つより小さな合成データセットを学習することを目的としている。
現在の分布マッチング(DM)に基づくDC法は,合成データセットと実データセットの潜伏埋め込みの平均をマッチングすることにより,合成データセットを学習する。
しかし、同じ平均を持つ2つの分布は依然として大きく異なる。
この研究は、最大平均離散性を用いて潜在分布、すなわち弱い整合力と外れ値正規化の欠如を一致させることの欠点を実証する。
これらの欠点を軽減するために,2つの分布間の適合試験統計量の良さを最小化するために,遅延量子マッチング (LQM) を提案する。
画像およびグラフ構造化データセットの実証実験により、LQMは分布マッチングに基づくDCにおいて、以前の最先端と一致するか、より優れていることが示された。
さらに、LQMは、メモリ効率とプライバシが重要となる連続グラフ学習(CGL)環境での性能を向上させることを示す。
本研究は,CGLへのDMベースDCの適用に光を当てる。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - DANCE: Dual-View Distribution Alignment for Dataset Condensation [39.08022095906364]
我々は、データセットのコンディエンテーション(DANCE)のためのDMベースの新しいDual-view Distribution AligNmentを提案する。
具体的には、内部クラスの観点から複数の「中間エンコーダ」を構築し、擬似的な長期分布アライメントを行う。
クラス間の観点からは,分布キャリブレーションを行うために専門家モデルを用いる。
論文 参考訳(メタデータ) (2024-06-03T07:22:17Z) - Masked Language Modeling Becomes Conditional Density Estimation for Tabular Data Synthesis [0.74454067778951]
Masked Modeling (MLM) の連続的多クラス分類タスクをヒストグラムに基づく条件密度推定として再定義し,MaCoDEを提案する。
目的変数と条件変数の任意の組み合わせで条件密度を推定できる。
提案モデルの有効性を検証するため,10個の実世界のデータセットにまたがる合成データ生成の性能を評価する。
論文 参考訳(メタデータ) (2024-05-31T03:26:42Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Learning the joint distribution of two sequences using little or no
paired data [16.189575655434844]
本稿では,2つのシーケンス,例えばテキストと音声のノイズチャネル生成モデルを提案する。
ペア化されたデータの少ないデータでも、大量の未ペアデータが存在する場合の2つのモダリティを関連付けるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:56:15Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Learning to Match Distributions for Domain Adaptation [116.14838935146004]
本稿では,ドメイン間分布マッチングを自動的に学習する学習 to Match (L2M)を提案する。
L2Mは、メタネットワークを用いてデータ駆動方式で分布整合損失を学習することにより、誘導バイアスを低減する。
公開データセットの実験は、SOTA法よりもL2Mの方が優れていることを裏付けている。
論文 参考訳(メタデータ) (2020-07-17T03:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。