論文の概要: Context-Aware Autoregressive Models for Multi-Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2505.12274v1
- Date: Sun, 18 May 2025 07:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.135807
- Title: Context-Aware Autoregressive Models for Multi-Conditional Image Generation
- Title(参考訳): コンテクストを考慮したマルチコンディション画像生成のための自己回帰モデル
- Authors: Yixiao Chen, Zhiyuan Ma, Guoli Jia, Che Jiang, Jianjun Li, Bowen Zhou,
- Abstract要約: ContextARは、多条件画像生成のための柔軟で効果的なフレームワークである。
様々な条件をトークンシーケンスに直接埋め込み、モダリティ固有の意味論を保存する。
拡散型多条件制御よりも競争力が高いことが,既存の自己回帰ベースラインに近づくことを示す。
- 参考スコア(独自算出の注目度): 24.967166342680112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive transformers have recently shown impressive image generation quality and efficiency on par with state-of-the-art diffusion models. Unlike diffusion architectures, autoregressive models can naturally incorporate arbitrary modalities into a single, unified token sequence--offering a concise solution for multi-conditional image generation tasks. In this work, we propose $\textbf{ContextAR}$, a flexible and effective framework for multi-conditional image generation. ContextAR embeds diverse conditions (e.g., canny edges, depth maps, poses) directly into the token sequence, preserving modality-specific semantics. To maintain spatial alignment while enhancing discrimination among different condition types, we introduce hybrid positional encodings that fuse Rotary Position Embedding with Learnable Positional Embedding. We design Conditional Context-aware Attention to reduces computational complexity while preserving effective intra-condition perception. Without any fine-tuning, ContextAR supports arbitrary combinations of conditions during inference time. Experimental results demonstrate the powerful controllability and versatility of our approach, and show that the competitive perpormance than diffusion-based multi-conditional control approaches the existing autoregressive baseline across diverse multi-condition driven scenarios. Project page: $\href{https://context-ar.github.io/}{https://context-ar.github.io/.}$
- Abstract(参考訳): 自己回帰変換器は近年,最先端拡散モデルに匹敵する画像生成品質と効率性を示した。
拡散アーキテクチャとは異なり、自己回帰モデルは自然に任意のモダリティを単一で統一されたトークンシーケンスに組み込むことができる。
本研究では,多条件画像生成のためのフレキシブルで効果的なフレームワークである$\textbf{ContextAR}$を提案する。
ContextARはさまざまな条件(例えば、キャニーエッジ、深さマップ、ポーズ)をトークンシーケンスに直接埋め込んで、モダリティ固有のセマンティクスを保存する。
異なる条件の識別性を高めつつ空間的アライメントを維持するために, 回転位置埋め込みと学習可能な位置埋め込みを融合したハイブリッドな位置符号化を導入する。
本研究では,条件内認識を効果的に保ちながら,計算複雑性を低減させる条件付きコンテキスト認識を設計する。
微調整なしでは、ContextARは推論時間中に任意の条件の組み合わせをサポートする。
実験により,本手法の強力な制御性と汎用性を示すとともに,拡散型多条件制御よりも競争力が高いことが,多様な多条件駆動シナリオにまたがる既存の自己回帰ベースラインにアプローチできることが示された。
プロジェクトページ: $\href{https://context-ar.github.io/}{https://context-ar.github.io/
※$
関連論文リスト
- CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation [11.170848285659572]
量子化埋め込みを用いたセグメンテーションマスクのオートエンコーダ精度は連続数値埋め込みよりも8%低い。
セマンティックセグメンテーションのための連続評価組込みフレームワークを提案する。
提案手法では,細粒度のセマンティックな詳細を保存しながら,離散的な潜在表現の必要性を排除している。
論文 参考訳(メタデータ) (2025-03-19T18:06:54Z) - Conditional Consistency Guided Image Translation and Enhancement [0.0]
マルチドメイン画像変換のための条件整合モデル(CCM)を提案する。
タスク固有の条件入力を導入し,これらの修正を施す。
CCMを10種類のデータセットで評価し,高品質な翻訳画像の作成の有効性を実証した。
論文 参考訳(メタデータ) (2025-01-02T12:13:31Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。