論文の概要: Visual Generation Without Guidance
- arxiv url: http://arxiv.org/abs/2501.15420v1
- Date: Sun, 26 Jan 2025 06:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:05.006594
- Title: Visual Generation Without Guidance
- Title(参考訳): 誘導のないビジュアルジェネレーション
- Authors: Huayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu,
- Abstract要約: 我々はサンプリングガイドのないビジュアルモデルを構築することを提案する。
得られたアルゴリズムである Guidance-Free Training (GFT) は、CFGの性能と一致し、サンプリングを1つのモデルに減らし、コストを半減する。
- 参考スコア(独自算出の注目度): 28.029707495420475
- License:
- Abstract: Classifier-Free Guidance (CFG) has been a default technique in various visual generative models, yet it requires inference from both conditional and unconditional models during sampling. We propose to build visual models that are free from guided sampling. The resulting algorithm, Guidance-Free Training (GFT), matches the performance of CFG while reducing sampling to a single model, halving the computational cost. Unlike previous distillation-based approaches that rely on pretrained CFG networks, GFT enables training directly from scratch. GFT is simple to implement. It retains the same maximum likelihood objective as CFG and differs mainly in the parameterization of conditional models. Implementing GFT requires only minimal modifications to existing codebases, as most design choices and hyperparameters are directly inherited from CFG. Our extensive experiments across five distinct visual models demonstrate the effectiveness and versatility of GFT. Across domains of diffusion, autoregressive, and masked-prediction modeling, GFT consistently achieves comparable or even lower FID scores, with similar diversity-fidelity trade-offs compared with CFG baselines, all while being guidance-free. Code will be available at https://github.com/thu-ml/GFT.
- Abstract(参考訳): Classifier-Free Guidance (CFG) は様々な視覚生成モデルにおいてデフォルトの手法であるが、サンプリング中に条件付きモデルと条件なしモデルの両方から推論する必要がある。
本稿では,ガイド付きサンプリングが不要なビジュアルモデルの構築を提案する。
得られたアルゴリズムである Guidance-Free Training (GFT) は、CFGの性能と一致し、単一のモデルへのサンプリングを減らし、計算コストを半減する。
事前訓練されたCFGネットワークに依存する従来の蒸留ベースのアプローチとは異なり、GFTはスクラッチから直接トレーニングを行うことができる。
GFTは実装が簡単です。
CFGと同じ極大目標を持ち、主に条件モデルのパラメータ化において異なる。
GFTの実装には、ほとんどの設計選択とハイパーパラメータがCFGから直接継承されるため、既存のコードベースへの最小限の変更しか必要としない。
5つの異なる視覚モデルにまたがる広範囲な実験は、GFTの有効性と汎用性を示している。
拡散、自己回帰、マスク予測モデリングの領域を越えて、GFTは一貫して同等または低いFIDスコアを達成している。
コードはhttps://github.com/thu-ml/GFTで入手できる。
関連論文リスト
- Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - Nested Annealed Training Scheme for Generative Adversarial Networks [54.70743279423088]
本稿では、厳密な数学的理論的枠組みである複合機能段階GAN(CFG)に焦点を当てる。
CFGモデルとスコアベースモデルとの理論的関係を明らかにする。
CFG判別器の学習目的は最適D(x)を求めることと等価であることがわかった。
論文 参考訳(メタデータ) (2025-01-20T07:44:09Z) - Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment [31.402736873762418]
言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。
実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。
このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
論文 参考訳(メタデータ) (2024-10-12T03:31:25Z) - Diversity-Rewarded CFG Distillation [62.08448835625036]
そこで本研究では,CFGの限界に対処しつつ,CFGの強度を蒸留する新しい微調整法であるCFG蒸留を導入する。
提案手法は,(1)蒸留目標,(CFGを使わずに)モデルのみにCFG拡張予測を模倣するよう促すこと,(2)多様性報酬を付与したRL目標,および与えられたプロンプトに対する多様な出力の生成を促進すること,の2つの訓練目標を最適化する。
論文 参考訳(メタデータ) (2024-10-08T14:40:51Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Stochastic Generative Flow Networks [89.34644133901647]
生成フローネットワーク(GFlowNets)は「制御としての推論」のレンズを通して複雑な構造をサンプリングすることを学ぶ
既存のGFlowNetsは決定論的環境にのみ適用でき、動的処理によるより一般的なタスクではフェールする。
本稿では,GFlowNetsを環境に拡張する新しいアルゴリズムであるGFlowNetsを紹介する。
論文 参考訳(メタデータ) (2023-02-19T03:19:40Z) - Graph Federated Learning for CIoT Devices in Smart Home Applications [23.216140264163535]
G-Fedfilt'と呼ばれるグラフフィルタリングに基づく新しいグラフ信号処理(GSP)に基づく集約ルールを提案する。
提案するアグリゲータは,グラフのトポロジに基づく情報の流れを構造化することができる。
モデルの一般化をテストする場合、FedAvgよりも2.41%$高い精度が得られる。
論文 参考訳(メタデータ) (2022-12-29T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。