論文の概要: TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement
- arxiv url: http://arxiv.org/abs/2510.16332v1
- Date: Sat, 18 Oct 2025 03:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.951095
- Title: TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement
- Title(参考訳): TokenAR: 自己回帰型Tokenレベルエンハンスメントによる複数対象生成
- Authors: Haiyue Sun, Qingdong He, Jinlong Peng, Peng Tang, Jiangning Zhang, Junwei Zhu, Xiaobin Hu, Shuicheng Yan,
- Abstract要約: TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
- 参考スコア(独自算出の注目度): 87.82338951215131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive Model (AR) has shown remarkable success in conditional image generation. However, these approaches for multiple reference generation struggle with decoupling different reference identities. In this work, we propose the TokenAR framework, specifically focused on a simple but effective token-level enhancement mechanism to address reference identity confusion problem. Such token-level enhancement consists of three parts, 1). Token Index Embedding clusters the tokens index for better representing the same reference images; 2). Instruct Token Injection plays as a role of extra visual feature container to inject detailed and complementary priors for reference tokens; 3). The identity-token disentanglement strategy (ITD) explicitly guides the token representations toward independently representing the features of each identity.This token-enhancement framework significantly augments the capabilities of existing AR based methods in conditional image generation, enabling good identity consistency while preserving high quality background reconstruction. Driven by the goal of high-quality and high-diversity in multi-subject generation, we introduce the InstructAR Dataset, the first open-source, large-scale, multi-reference input, open domain image generation dataset that includes 28K training pairs, each example has two reference subjects, a relative prompt and a background with mask annotation, curated for multiple reference image generation training and evaluating. Comprehensive experiments validate that our approach surpasses current state-of-the-art models in multiple reference image generation task. The implementation code and datasets will be made publicly. Codes are available, see https://github.com/lyrig/TokenAR
- Abstract(参考訳): 自己回帰モデル(AR)は条件付き画像生成において顕著な成功を収めた。
しかし、これら複数の参照生成に対するアプローチは、異なる参照IDの分離に苦労する。
本研究では,参照ID混同問題に対処する,単純かつ効果的なトークンレベル拡張機構に着目したTokenARフレームワークを提案する。
このようなトークンレベルの拡張は、(1)の3つの部分から構成される。
Token Index Embedding cluster the tokens Index for better representation the same reference images; 2)。
Token Injectionは、参照トークンの詳細なおよび補完的な事前を注入するための、余分な視覚的特徴コンテナの役割として機能する。
このフレームワークは、条件付き画像生成における既存のAR手法の能力を著しく強化し、高品質な背景復元を保ちながら、良好なアイデンティティ整合性を実現する。
InstructAR Datasetは,28Kのトレーニングペアを含むオープンドメイン画像生成データセットであり,各サンプルには2つの参照対象,相対的なプロンプトとマスクアノテーション付き背景があり,複数の参照画像生成トレーニングと評価のためにキュレートされている。
総合的な実験により,複数の参照画像生成タスクにおいて,我々のアプローチが現在の最先端モデルを上回ることが検証された。
実装コードとデータセットは公開されます。
コードはhttps://github.com/lyrig/TokenARを参照してください。
関連論文リスト
- ContextGen: Contextual Layout Anchoring for Identity-Consistent Multi-Instance Generation [24.487453636504707]
マルチインスタンス生成のための新しいDiffusion TransformerフレームワークであるContextGenを紹介する。
ContextGenは、制御精度、アイデンティティの忠実度、全体的な視覚的品質において、既存の手法よりも優れた新しい最先端の手法を設定できることを示します。
論文 参考訳(メタデータ) (2025-10-13T04:21:19Z) - Hita: Holistic Tokenizer for Autoregressive Image Generation [56.81871174745175]
自己回帰(AR)画像生成のための新しい画像トークンであるtextitHita を紹介する。
学習可能な全体的クエリとローカルパッチトークンを備えた、全体論的から局所的なトークン化スキームを導入している。
論文 参考訳(メタデータ) (2025-07-03T06:44:26Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Importance-Based Token Merging for Efficient Image and Video Generation [41.94334394794811]
マージ時の高情報トークンの保存は,サンプルの品質を著しく向上させることを示す。
本稿では,計算資源割り当てにおいて最も重要なトークンを優先する重要度に基づくトークンマージ手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。