論文の概要: Condition-Aware Neural Network for Controlled Image Generation
- arxiv url: http://arxiv.org/abs/2404.01143v1
- Date: Mon, 1 Apr 2024 14:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:15:37.713596
- Title: Condition-Aware Neural Network for Controlled Image Generation
- Title(参考訳): 制御画像生成のための条件対応ニューラルネットワーク
- Authors: Han Cai, Muyang Li, Zhuoyang Zhang, Qinsheng Zhang, Ming-Yu Liu, Song Han,
- Abstract要約: Condition-Aware Neural Network (CAN) は、画像生成モデルに制御を追加する新しい方法である。
CANは、拡散トランスモデルの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 39.49336265585335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Condition-Aware Neural Network (CAN), a new method for adding control to image generative models. In parallel to prior conditional control methods, CAN controls the image generation process by dynamically manipulating the weight of the neural network. This is achieved by introducing a condition-aware weight generation module that generates conditional weight for convolution/linear layers based on the input condition. We test CAN on class-conditional image generation on ImageNet and text-to-image generation on COCO. CAN consistently delivers significant improvements for diffusion transformer models, including DiT and UViT. In particular, CAN combined with EfficientViT (CaT) achieves 2.78 FID on ImageNet 512x512, surpassing DiT-XL/2 while requiring 52x fewer MACs per sampling step.
- Abstract(参考訳): 本稿では,画像生成モデルに制御を追加する新しい手法であるCondition-Aware Neural Network (CAN)を提案する。
従来の条件制御法と並行して、CANはニューラルネットワークの重みを動的に操作することで、画像生成プロセスを制御する。
これは、入力条件に基づいて畳み込み/直線層の条件重みを生成する条件対応重み生成モジュールを導入することで実現される。
我々は,イメージネット上でのクラス条件画像生成とCOCO上でのテキスト・ツー・イメージ生成でCANをテストする。
CANは、DiTやUViTなど、拡散トランスフォーマーモデルの大幅な改善を実現している。
特に、EfficientViT (CaT)と組み合わせたCANはImageNet 512x512で2.78 FIDを獲得し、サンプリングステップあたり52倍のMACを必要とする。
関連論文リスト
- Attack Deterministic Conditional Image Generative Models for Diverse and
Controllable Generation [17.035117118768945]
本稿では,多様な制御可能な画像生成のためのプラグイン投影勾配降下法(PGD)を提案する。
鍵となる考え方は、入力条件に微小摂動を加えることで、事前訓練された決定論的生成モデルを攻撃することである。
我々の研究は、低レベルの視覚タスクに敵攻撃を適用するための扉を開く。
論文 参考訳(メタデータ) (2024-03-13T06:57:23Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - D2C: Diffusion-Denoising Models for Few-shot Conditional Generation [109.68228014811443]
コントラスト表現を用いた拡散復号モデル(D2C)について述べる。
D2Cは、学習した拡散に基づく遅延表現を用いて、表現品質を改善するために、生成と対照的な自己教師付き学習を改善する。
条件付き画像操作では、D2C世代はStyleGAN2世代よりも2桁早く生成でき、二重盲検でヒト評価者の50%から60%が好んでいる。
論文 参考訳(メタデータ) (2021-06-12T16:32:30Z) - Guiding GANs: How to control non-conditional pre-trained GANs for
conditional image generation [69.10717733870575]
本稿では,汎用非条件GANを条件GANとして振る舞うための新しい方法を提案する。
提案手法は,非条件GANのジェネレータネットワークに供給される高次元ランダム入力を生成するために,エンコーダネットワークを混合するものである。
論文 参考訳(メタデータ) (2021-01-04T14:03:32Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。