論文の概要: Continual Learning of Generative Models with Limited Data: From
Wasserstein-1 Barycenter to Adaptive Coalescence
- arxiv url: http://arxiv.org/abs/2101.09225v1
- Date: Fri, 22 Jan 2021 17:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 22:30:11.085222
- Title: Continual Learning of Generative Models with Limited Data: From
Wasserstein-1 Barycenter to Adaptive Coalescence
- Title(参考訳): 限られたデータによる生成モデルの連続学習--wasserstein-1 barycenterから適応的合体へ
- Authors: Mehmet Dedeoglu, Sen Lin, Zhaofeng Zhang, Junshan Zhang
- Abstract要約: データと計算能力に制限のあるネットワークエッジノードでは、生成モデルの学習が難しい。
本研究は,生成モデルの連続学習を体系的に最適化するフレームワークの開発を目的とする。
- 参考スコア(独自算出の注目度): 22.82926450287203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning generative models is challenging for a network edge node with
limited data and computing power. Since tasks in similar environments share
model similarity, it is plausible to leverage pre-trained generative models
from the cloud or other edge nodes. Appealing to optimal transport theory
tailored towards Wasserstein-1 generative adversarial networks (WGAN), this
study aims to develop a framework which systematically optimizes continual
learning of generative models using local data at the edge node while
exploiting adaptive coalescence of pre-trained generative models. Specifically,
by treating the knowledge transfer from other nodes as Wasserstein balls
centered around their pre-trained models, continual learning of generative
models is cast as a constrained optimization problem, which is further reduced
to a Wasserstein-1 barycenter problem. A two-stage approach is devised
accordingly: 1) The barycenters among the pre-trained models are computed
offline, where displacement interpolation is used as the theoretic foundation
for finding adaptive barycenters via a "recursive" WGAN configuration; 2) the
barycenter computed offline is used as meta-model initialization for continual
learning and then fast adaptation is carried out to find the generative model
using the local samples at the target edge node. Finally, a weight
ternarization method, based on joint optimization of weights and threshold for
quantization, is developed to compress the generative model further.
- Abstract(参考訳): データと計算能力に制限のあるネットワークエッジノードでは、生成モデルの学習が難しい。
類似した環境におけるタスクはモデル類似性を共有するため、クラウドや他のエッジノードから事前訓練された生成モデルを活用することは可能である。
本研究は,WGAN(Wasserstein-1 Generative Adversarial Network)に適合する最適輸送理論に特化して,事前学習した生成モデルの適応的合理化を生かしながら,エッジノードにおける局所データを用いた生成モデルの連続的学習を体系的に最適化するフレームワークを開発することを目的とする。
具体的には、事前学習されたモデルを中心に、他のノードからの知識伝達をwasserstein ballとして扱うことにより、生成モデルの継続的な学習を制約付き最適化問題としてキャストし、さらにwasserstein-1のバリセンタ問題に還元する。
1)事前学習したモデルのバリセンタをオフラインで計算し、そこで変位補間を「再帰的」なWGAN構成により適応的なバリセンタを見つけるための理論基盤として使用し、2)連続学習のためのメタモデル初期化として計算したバリセンタをオフラインとし、次に高速適応を行い、ターゲットエッジノードの局所サンプルを用いて生成モデルを求める。
最後に、重みの連成最適化と量子化しきい値に基づく重み三元化法を開発し、生成モデルをさらに圧縮する。
関連論文リスト
- A model-constrained Discontinuous Galerkin Network (DGNet) for Compressible Euler Equations with Out-of-Distribution Generalization [0.0]
圧縮可能なオイラー方程式を解くために,モデル制約付き不連続なGalerkin Network (DGNet) アプローチを開発した。
DGNet法の有効性, 安定性, 一般化性を検証するため, 1次元および2次元圧縮可能なオイラー方程式問題に対する数値計算結果を提案する。
論文 参考訳(メタデータ) (2024-09-27T01:13:38Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Dual Student Networks for Data-Free Model Stealing [79.67498803845059]
主な課題は、パラメータにアクセスせずにターゲットモデルの勾配を推定し、多様なトレーニングサンプルを生成することである。
そこで本研究では,2人の学生が左右対称に学習し,学生が反対するサンプルを生成するための基準を提案する。
我々の新しい最適化フレームワークは、目標モデルのより正確な勾配推定と、ベンチマーク分類データセットの精度向上を提供する。
論文 参考訳(メタデータ) (2023-09-18T18:11:31Z) - A Deep Dive into the Connections Between the Renormalization Group and
Deep Learning in the Ising Model [0.0]
再正規化群(Renormalization group、RG)は、統計物理学と量子場理論において必須の手法である。
本研究では, 1D と 2D Ising モデルに対する広範な再正規化手法を開発し, 比較のためのベースラインを提供する。
2次元イジングモデルでは、Wolffアルゴリズムを用いてIsingモデルサンプルを生成し、準決定論的手法を用いてグループフローを実行した。
論文 参考訳(メタデータ) (2023-08-21T22:50:54Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Sparsely constrained neural networks for model discovery of PDEs [0.0]
本稿では,任意のスパース回帰手法を用いて,ディープラーニングに基づくサロゲートのスパースパターンを決定するモジュラーフレームワークを提案する。
異なるネットワークアーキテクチャと疎度推定器がモデル発見精度と収束性を,いくつかのベンチマーク例でどのように改善するかを示す。
論文 参考訳(メタデータ) (2020-11-09T11:02:40Z) - Learning Generative Models using Denoising Density Estimators [29.068491722778827]
縮退密度推定器(DDE)に基づく新しい生成モデルを提案する。
我々の主な貢献は、KL分割を直接最小化することで生成モデルを得る新しい技術である。
実験結果から, 生成モデル学習における密度推定と競争性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-01-08T20:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。