論文の概要: Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
- arxiv url: http://arxiv.org/abs/2503.01103v1
- Date: Mon, 03 Mar 2025 02:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:15.858605
- Title: Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
- Title(参考訳): 直接判別最適化:あなたの好きなビジュアル生成モデルは秘密裏にGAN識別器である
- Authors: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang,
- Abstract要約: 本稿では,確率に基づく生成学習と最大推定目標を橋渡しする統合フレームワークを提案する。
我々の重要な洞察は、学習可能な対象モデルと固定参照モデルとの確率比を用いて、識別器を暗黙的にパラメータ化することである。
GANとは異なり、このパラメータ化はジェネレータと識別器ネットワークの共同トレーニングの必要性を排除している。
- 参考スコア(独自算出の注目度): 38.883123034958935
- License:
- Abstract: While likelihood-based generative models, particularly diffusion and autoregressive models, have achieved remarkable fidelity in visual generation, the maximum likelihood estimation (MLE) objective inherently suffers from a mode-covering tendency that limits the generation quality under limited model capacity. In this work, we propose Direct Discriminative Optimization (DDO) as a unified framework that bridges likelihood-based generative training and the GAN objective to bypass this fundamental constraint. Our key insight is to parameterize a discriminator implicitly using the likelihood ratio between a learnable target model and a fixed reference model, drawing parallels with the philosophy of Direct Preference Optimization (DPO). Unlike GANs, this parameterization eliminates the need for joint training of generator and discriminator networks, allowing for direct, efficient, and effective finetuning of a well-trained model to its full potential beyond the limits of MLE. DDO can be performed iteratively in a self-play manner for progressive model refinement, with each round requiring less than 1% of pretraining epochs. Our experiments demonstrate the effectiveness of DDO by significantly advancing the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently improving both guidance-free and CFG-enhanced FIDs of visual autoregressive models on ImageNet 256$\times$256.
- Abstract(参考訳): 可能性に基づく生成モデル、特に拡散と自己回帰モデルは、視覚生成において顕著な忠実さを達成しているが、最大推定(MLE)の目的は、モデルキャパシティに制限された生成品質を制限するモード被覆傾向に本質的に苦しむことである。
本研究では,この基本的制約を回避すべく,確率に基づく生成学習とGAN目標を橋渡しする統合フレームワークとして,直接識別最適化(DDO)を提案する。
我々の重要な洞察は、学習可能な対象モデルと固定参照モデルとの確率比を暗黙的にパラメータ化し、直接選好最適化(DPO)の哲学と平行に描画することである。
GANとは異なり、このパラメータ化はジェネレータと識別器ネットワークの共同トレーニングの必要性を排除し、MLEの限界を超えて、十分に訓練されたモデルの直接的、効率的、効果的な微調整を可能にする。
DDOは、プログレッシブモデルの洗練のために、自己プレイ方式で反復的に行うことができ、各ラウンドは、事前学習のエポックの1%以下である。
CIFAR-10/ImageNet-64データセットのFIDスコアを1.79/1.58から1.30/0.97に削減し、ImageNet 256$\times$256の視覚自己回帰モデルの誘導不要FIDとCFG強化FIDを一貫して改善することにより、DDOの有効性を実証した。
関連論文リスト
- Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。