論文の概要: SCALAR: Scale-wise Controllable Visual Autoregressive Learning
- arxiv url: http://arxiv.org/abs/2507.19946v2
- Date: Tue, 29 Jul 2025 03:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.841619
- Title: SCALAR: Scale-wise Controllable Visual Autoregressive Learning
- Title(参考訳): SCALAR: スケールワイド制御可能なビジュアル自動回帰学習
- Authors: Ryan Xu, Dongyang Jin, Yancheng Bai, Rui Lan, Xu Duan, Lei Sun, Xiangxiang Chu,
- Abstract要約: 視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。
予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。
SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
- 参考スコア(独自算出の注目度): 15.775596699630633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable image synthesis, which enables fine-grained control over generated outputs, has emerged as a key focus in visual generative modeling. However, controllable generation remains challenging for Visual Autoregressive (VAR) models due to their hierarchical, next-scale prediction style. Existing VAR-based methods often suffer from inefficient control encoding and disruptive injection mechanisms that compromise both fidelity and efficiency. In this work, we present SCALAR, a controllable generation method based on VAR, incorporating a novel Scale-wise Conditional Decoding mechanism. SCALAR leverages a pretrained image encoder to extract semantic control signal encodings, which are projected into scale-specific representations and injected into the corresponding layers of the VAR backbone. This design provides persistent and structurally aligned guidance throughout the generation process. Building on SCALAR, we develop SCALAR-Uni, a unified extension that aligns multiple control modalities into a shared latent space, supporting flexible multi-conditional guidance in a single model. Extensive experiments show that SCALAR achieves superior generation quality and control precision across various tasks.
- Abstract(参考訳): 生成した出力のきめ細かい制御を可能にする制御可能な画像合成は、視覚生成モデリングにおいて重要な焦点となっている。
しかし、階層的で次のスケールの予測スタイルのため、Visual Autoregressive(VAR)モデルでは制御可能な生成は依然として困難である。
既存のVARベースの手法は、しばしば非効率な制御符号化と破壊的な注入機構に悩まされ、忠実さと効率の両方を損なう。
本稿では, VARに基づく制御可能な生成手法であるSCALARについて述べる。
SCALARは、事前訓練されたイメージエンコーダを利用して、意味制御信号の符号化を抽出し、スケール固有の表現に投影し、VARバックボーンの対応する層に注入する。
この設計は、生成プロセスを通して永続的で構造的に整合したガイダンスを提供する。
SCALAR上に構築したSCALAR-Uniは,複数の制御モードを共有潜在空間に整合させ,単一のモデルで柔軟なマルチコンディショナリガイダンスをサポートする統合拡張である。
大規模な実験により、SCALARは様々なタスクにおいて優れた生成品質と制御精度を達成することが示された。
関連論文リスト
- Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - ControlAR: Controllable Image Generation with Autoregressive Models [40.74890550081335]
自動回帰画像生成モデルに空間制御を統合するための効率的なフレームワークであるControlARを導入する。
ControlARは条件付き復号法を利用して、制御と画像トークンの融合によって条件付けられた次の画像トークンを生成する。
その結果,コントロールARは従来の制御可能な拡散モデルを上回ることが示唆された。
論文 参考訳(メタデータ) (2024-10-03T17:28:07Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。