論文の概要: JEM++: Improved Techniques for Training JEM
- arxiv url: http://arxiv.org/abs/2109.09032v1
- Date: Sun, 19 Sep 2021 00:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:00:25.886672
- Title: JEM++: Improved Techniques for Training JEM
- Title(参考訳): JEM++:JEMのトレーニング技術の改善
- Authors: Xiulong Yang, Shihao Ji
- Abstract要約: JEM(Joint Energy-based Model)は、現代のCNN分類器の強力な識別力を保持するハイブリッドモデルである。
我々は,JEMの精度,トレーニング安定性,スピードを全面的に向上させるために,さまざまな新しいトレーニング手順とアーキテクチャ機能を提案する。
- 参考スコア(独自算出の注目度): 1.5533842336139065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint Energy-based Model (JEM) is a recently proposed hybrid model that
retains strong discriminative power of modern CNN classifiers, while generating
samples rivaling the quality of GAN-based approaches. In this paper, we propose
a variety of new training procedures and architecture features to improve JEM's
accuracy, training stability, and speed altogether. 1) We propose a proximal
SGLD to generate samples in the proximity of samples from the previous step,
which improves the stability. 2) We further treat the approximate maximum
likelihood learning of EBM as a multi-step differential game, and extend the
YOPO framework to cut out redundant calculations during backpropagation, which
accelerates the training substantially. 3) Rather than initializing SGLD chain
from random noise, we introduce a new informative initialization that samples
from a distribution estimated from training data. 4) This informative
initialization allows us to enable batch normalization in JEM, which further
releases the power of modern CNN architectures for hybrid modeling. Code:
https://github.com/sndnyang/JEMPP
- Abstract(参考訳): JEM(Joint Energy-based Model)は、最近のCNN分類器の強力な識別能力を維持しつつ、GANベースのアプローチの質に匹敵するサンプルを生成するハイブリッドモデルである。
本稿では,JEMの精度,トレーニング安定性,スピードを全面的に向上させるために,新しいトレーニング手順とアーキテクチャ機能を提案する。
1) 前段からサンプルに近いサンプルを生成するための近位SGLDを提案し,安定性を向上した。
2) ebmの近似最大度学習を多段階微分ゲームとして扱い, バックプロパゲーション中に冗長な計算を省くようyopoフレームワークを拡張し, トレーニングを実質的に高速化する。
3) ランダムノイズからSGLD鎖を初期化する代わりに, トレーニングデータから推定した分布からサンプルを抽出する情報初期化を導入する。
4) この情報的初期化により、JEMのバッチ正規化が可能となり、ハイブリッドモデリングのための最新のCNNアーキテクチャのパワーがさらに解放される。
コード: https://github.com/sndnyang/jempp
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - A Bayesian Flow Network Framework for Chemistry Tasks [0.0]
ベイジアンフローネットワークに基づく化学タスクを処理する言語モデルであるChemBFNを紹介する。
サンプリング品質を改善するために,新しい精度スケジュールを提案する。
本手法は, 少ないサンプリングステップを用いても, 十分な多様性を持つ分子を生成するのに適していることを示す。
論文 参考訳(メタデータ) (2024-07-28T04:46:32Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。