論文の概要: DreamVAR: Taming Reinforced Visual Autoregressive Model for High-Fidelity Subject-Driven Image Generation
- arxiv url: http://arxiv.org/abs/2601.22507v1
- Date: Fri, 30 Jan 2026 03:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.192861
- Title: DreamVAR: Taming Reinforced Visual Autoregressive Model for High-Fidelity Subject-Driven Image Generation
- Title(参考訳): DreamVAR:高忠実度被写体駆動画像生成のための強化視覚自己回帰モデル
- Authors: Xin Jiang, Jingwen Chen, Yehao Li, Yingwei Pan, Kezhou Chen, Zechao Li, Ting Yao, Tao Mei,
- Abstract要約: 本稿では,視覚的自己回帰モデルに基づく主観的画像合成のための新しいフレームワークを提案する。
本研究では,Dreamtheが従来の拡散法よりも優れた外観保存を実現していることを示す。
- 参考スコア(独自算出の注目度): 108.71044040025374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in subject-driven image generation using diffusion models have attracted considerable attention for their remarkable capabilities in producing high-quality images. Nevertheless, the potential of Visual Autoregressive (VAR) models, despite their unified architecture and efficient inference, remains underexplored. In this work, we present DreamVAR, a novel framework for subject-driven image synthesis built upon a VAR model that employs next-scale prediction. Technically, multi-scale features of the reference subject are first extracted by a visual tokenizer. Instead of interleaving these conditional features with target image tokens across scales, our DreamVAR pre-fills the full subject feature sequence prior to predicting target image tokens. This design simplifies autoregressive dependencies and mitigates the train-test discrepancy in multi-scale conditioning scenario within the VAR paradigm. DreamVAR further incorporates reinforcement learning to jointly enhance semantic alignment and subject consistency. Extensive experiments demonstrate that DreamVAR achieves superior appearance preservation compared to leading diffusion-based methods.
- Abstract(参考訳): 拡散モデルを用いた被写体駆動画像生成の最近の進歩は、高品質な画像を作成する上での顕著な能力において、かなりの注目を集めている。
それでも、Visual Autoregressive(VAR)モデルの可能性は、統一されたアーキテクチャと効率的な推論にもかかわらず、未調査のままである。
本稿では,VARモデル上に構築された主観的画像合成のための新しいフレームワークであるDreamVARについて述べる。
技術的には、参照対象のマルチスケール特徴は、まず視覚的トークン化器によって抽出される。
これらの条件付き特徴をスケールにわたってターゲット画像トークンとインターリーブする代わりに、DreamVARはターゲット画像トークンを予測する前に、全対象特徴シーケンスをプリフィルする。
この設計は、自動回帰依存を単純化し、VARパラダイム内のマルチスケール条件付けシナリオにおける列車テストの不一致を軽減する。
DreamVARはさらに強化学習を導入し、セマンティックアライメントと主観的一貫性を共同で強化する。
大規模な実験により、DreamVARは拡散法よりも優れた外観保存を達成できることが示された。
関連論文リスト
- Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations [53.91818843831925]
NExT-Vidは,新しい自己回帰型視覚生成事前学習フレームワークである。
本研究では,文脈分離型自己回帰予測器を導入し,セマンティック表現をターゲットデコーディングから切り離す。
文脈分離型フローマッチング事前学習により,本手法は強い表現を実現する。
論文 参考訳(メタデータ) (2025-12-24T07:07:08Z) - GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。