Fugu-MT 論文翻訳(概要): ControlVAR: Exploring Controllable Visual Autoregressive Modeling

論文の概要: ControlVAR: Exploring Controllable Visual Autoregressive Modeling

arxiv url: http://arxiv.org/abs/2406.09750v2
Date: Wed, 02 Oct 2024 02:10:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 13:35:34.860029
Title: ControlVAR: Exploring Controllable Visual Autoregressive Modeling
Title（参考訳）: ControlVAR: 制御可能なビジュアル自動回帰モデリング
Authors: Xiang Li, Kai Qiu, Hao Chen, Jason Kuen, Zhe Lin, Rita Singh, Bhiksha Raj,
Abstract要約: 拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
参考スコア（独自算出の注目度）: 48.66209303617063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Conditional visual generation has witnessed remarkable progress with the advent of diffusion models (DMs), especially in tasks like control-to-image generation. However, challenges such as expensive computational cost, high inference latency, and difficulties of integration with large language models (LLMs) have necessitated exploring alternatives to DMs. This paper introduces ControlVAR, a novel framework that explores pixel-level controls in visual autoregressive (VAR) modeling for flexible and efficient conditional generation. In contrast to traditional conditional models that learn the conditional distribution, ControlVAR jointly models the distribution of image and pixel-level conditions during training and imposes conditional controls during testing. To enhance the joint modeling, we adopt the next-scale AR prediction paradigm and unify control and image representations. A teacher-forcing guidance strategy is proposed to further facilitate controllable generation with joint modeling. Extensive experiments demonstrate the superior efficacy and flexibility of ControlVAR across various conditional generation tasks against popular conditional DMs, \eg, ControlNet and T2I-Adaptor. Code: \url{https://github.com/lxa9867/ControlVAR}.
Abstract（参考訳）: 条件付き視覚生成は拡散モデル(DM)の出現によって顕著な進歩をみせている。しかし、高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰(VAR)モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlVARを紹介する。条件分布を学習する従来の条件モデルとは対照的に、ControlVARはトレーニング中に画像とピクセルレベルの条件の分布を共同でモデル化し、テスト中に条件制御を課す。共同モデリングを強化するため、我々は次世代AR予測パラダイムを採用し、制御と画像表現を統一する。共同モデリングによる制御可能な生成をさらに促進するために,教師の強制指導戦略を提案する。広汎な実験は,一般的な条件付きDM, \eg, ControlNet, T2I-Adaptorに対して, 各種条件生成タスクに対して, ControlVARの優れた有効性と柔軟性を示す。コード: \url{https://github.com/lxa9867/ControlVAR}

関連論文リスト

SCALAR: Scale-wise Controllable Visual Autoregressive Learning [15.775596699630633]
視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。 SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
論文参考訳（メタデータ） (2025-07-26T13:23:08Z)
A Practical Investigation of Spatially-Controlled Image Generation with Transformers [16.682348277650817]
我々は,空間的に制御された生成システムを開発したいと考える実践者に対して,世代パラダイムをまたいだ明確なテイクアウトを提供することを目指している。我々は、拡散ベース/フローベースおよび自己回帰(AR)モデル間で、ImageNet上で制御実験を行う。
論文参考訳（メタデータ） (2025-07-21T15:33:49Z)
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。私たちのフレームワークは、3つの新しい目標のファミリーにつながります。 Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文参考訳（メタデータ） (2024-10-10T17:18:30Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
ControlAR: Controllable Image Generation with Autoregressive Models [40.74890550081335]
自動回帰画像生成モデルに空間制御を統合するための効率的なフレームワークであるControlARを導入する。 ControlARは条件付き復号法を利用して、制御と画像トークンの融合によって条件付けられた次の画像トークンを生成する。その結果,コントロールARは従来の制御可能な拡散モデルを上回ることが示唆された。
論文参考訳（メタデータ） (2024-10-03T17:28:07Z)
TCIG: Two-Stage Controlled Image Generation with Quality Enhancement through Diffusion [0.0]
画像生成における制御性と高品質を両立させる2段階の手法を提案する。制御性と高品質を分離することにより,優れた結果が得られる。
論文参考訳（メタデータ） (2024-03-02T13:59:02Z)
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation [79.8881514424969]
テキスト条件拡散モデルは多種多様な内容の高忠実度画像を生成することができる。しかし、言語表現はしばしば、想定された目的像の曖昧な記述を示す。様々なモダリティを1つの埋め込みに混ぜるパイプラインであるCocktailを提案する。
論文参考訳（メタデータ） (2023-06-01T17:55:32Z)
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。 UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。 9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文参考訳（メタデータ） (2023-05-18T17:41:34Z)
ControlVAE: Model-Based Learning of Generative Controllers for Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文参考訳（メタデータ） (2022-10-12T10:11:36Z)
Transformer-based Conditional Variational Autoencoder for Controllable Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文参考訳（メタデータ） (2021-01-04T08:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。