論文の概要: Self-control: A Better Conditional Mechanism for Masked Autoregressive Model
- arxiv url: http://arxiv.org/abs/2412.13635v1
- Date: Wed, 18 Dec 2024 09:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:13.431063
- Title: Self-control: A Better Conditional Mechanism for Masked Autoregressive Model
- Title(参考訳): 自己制御:マスク自己回帰モデルのためのより良い条件機構
- Authors: Qiaoying Qu, Shiyu Shen,
- Abstract要約: 本稿では,連続マスク型自己回帰モデルのための条件付き導入ネットワークを提案する。
提案した自己制御ネットワークは、ベクトル量子化の負の影響が生成画像の品質に与える影響を軽減するのに役立つ。
- 参考スコア(独自算出の注目度): 1.9950682531209158
- License:
- Abstract: Autoregressive conditional image generation algorithms are capable of generating photorealistic images that are consistent with given textual or image conditions, and have great potential for a wide range of applications. Nevertheless, the majority of popular autoregressive image generation methods rely heavily on vector quantization, and the inherent discrete characteristic of codebook presents a considerable challenge to achieving high-quality image generation. To address this limitation, this paper introduces a novel conditional introduction network for continuous masked autoregressive models. The proposed self-control network serves to mitigate the negative impact of vector quantization on the quality of the generated images, while simultaneously enhancing the conditional control during the generation process. In particular, the self-control network is constructed upon a continuous mask autoregressive generative model, which incorporates multimodal conditional information, including text and images, into a unified autoregressive sequence in a serial manner. Through a self-attention mechanism, the network is capable of generating images that are controllable based on specific conditions. The self-control network discards the conventional cross-attention-based conditional fusion mechanism and effectively unifies the conditional and generative information within the same space, thereby facilitating more seamless learning and fusion of multimodal features.
- Abstract(参考訳): 自己回帰条件画像生成アルゴリズムは、所定のテキスト条件や画像条件と整合したフォトリアリスティックな画像を生成することができ、広範囲のアプリケーションに対して大きな可能性を秘めている。
それでも、一般的な自己回帰画像生成法の大半はベクトル量子化に大きく依存しており、コードブック固有の離散特性は高品質な画像生成を実現する上で大きな課題である。
この制限に対処するために,マスク付き自己回帰モデルのための新しい条件付き導入ネットワークを提案する。
提案する自己制御ネットワークは、ベクトル量子化の負の影響が生成した画像の品質に与える影響を緩和するとともに、生成過程における条件制御を同時に強化する。
特に、テキストや画像を含む多モード条件情報を連続的に統合された自己回帰シーケンスに組み込んだ連続マスク自己回帰生成モデルに基づいて自己制御ネットワークを構築する。
自己認識機構により、ネットワークは特定の条件に基づいて制御可能な画像を生成することができる。
自己制御ネットワークは、従来のクロスアテンションベースの条件融合機構を捨て、同じ空間内の条件情報と生成情報を効果的に統一することにより、よりシームレスな学習とマルチモーダル特徴の融合を容易にする。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - MCGM: Mask Conditional Text-to-Image Generative Model [1.909929271850469]
条件付きマスクテキスト・画像生成モデル(MCGM)を提案する。
本モデルでは,複数の被写体を持つ単一画像を用いた新たなシーン生成において,Break-a-scene [1]モデルの成功に基づいて構築した。
この追加的なレベルの制御を導入することで、MCGMは1つの画像から学んだ1つ以上の被験者に対する特定のポーズを生成する、柔軟で直感的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-01T08:13:47Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文 参考訳(メタデータ) (2024-05-27T21:23:20Z) - Attack Deterministic Conditional Image Generative Models for Diverse and
Controllable Generation [17.035117118768945]
本稿では,多様な制御可能な画像生成のためのプラグイン投影勾配降下法(PGD)を提案する。
鍵となる考え方は、入力条件に微小摂動を加えることで、事前訓練された決定論的生成モデルを攻撃することである。
我々の研究は、低レベルの視覚タスクに敵攻撃を適用するための扉を開く。
論文 参考訳(メタデータ) (2024-03-13T06:57:23Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。