論文の概要: Ensembling Off-the-shelf Models for GAN Training
- arxiv url: http://arxiv.org/abs/2112.09130v1
- Date: Thu, 16 Dec 2021 18:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:43:47.646272
- Title: Ensembling Off-the-shelf Models for GAN Training
- Title(参考訳): GANトレーニングのためのオフザシェルフモデルの構築
- Authors: Nupur Kumari, Richard Zhang, Eli Shechtman, Jun-Yan Zhu
- Abstract要約: 事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
- 参考スコア(独自算出の注目度): 55.34705213104182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of large-scale training has produced a cornucopia of powerful
visual recognition models. However, generative models, such as GANs, have
traditionally been trained from scratch in an unsupervised manner. Can the
collective "knowledge" from a large bank of pretrained vision models be
leveraged to improve GAN training? If so, with so many models to choose from,
which one(s) should be selected, and in what manner are they most effective? We
find that pretrained computer vision models can significantly improve
performance when used in an ensemble of discriminators. Notably, the particular
subset of selected models greatly affects performance. We propose an effective
selection mechanism, by probing the linear separability between real and fake
samples in pretrained model embeddings, choosing the most accurate model, and
progressively adding it to the discriminator ensemble. Interestingly, our
method can improve GAN training in both limited data and large-scale settings.
Given only 10k training samples, our FID on LSUN Cat matches the StyleGAN2
trained on 1.6M images. On the full dataset, our method improves FID by 1.5x to
2x on cat, church, and horse categories of LSUN.
- Abstract(参考訳): 大規模トレーニングの出現は、強力な視覚認識モデルのコルヌコピアを生み出した。
しかし、GANのような生成モデルは、伝統的に教師なしの方法でゼロから訓練されてきた。
ganトレーニングを改善するために、事前訓練されたビジョンモデルの大きなバンクからの「知識」を活用できるか?
もしそうなら、選択すべきモデルがあまりにも多いので、どのモデルを選ぶべきか、最も効果的な方法は何でしょう?
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
特に、選択されたモデルの特定のサブセットは、パフォーマンスに大きく影響します。
本稿では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を探索し,最も正確なモデルを選択し,識別器アンサンブルに徐々に付加することにより,効果的な選択機構を提案する。
興味深いことに,本手法は限られたデータと大規模設定の両方におけるGANトレーニングを改善することができる。
LSUN Cat上のFIDは、わずか10kのトレーニングサンプルから、1.6Mの画像でトレーニングされたStyleGAN2と一致します。
フルデータセットでは,LSUNの猫,教会,馬のカテゴリーでFIDを1.5倍から2倍に改善する。
関連論文リスト
- Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Improving the Generalization of Supervised Models [30.264601433216246]
本稿では,両世界の長所を生かした教師あり学習環境を提案する。
これらの3つの改善により、IN1Kトレーニングタスクと13のトランスファータスクとのトレードオフがより有利になることを示す。
論文 参考訳(メタデータ) (2022-06-30T15:43:51Z) - Effective training-time stacking for ensembling of deep neural networks [1.2667973028134798]
スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
論文 参考訳(メタデータ) (2022-06-27T17:52:53Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。