論文の概要: Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models
- arxiv url: http://arxiv.org/abs/2509.23919v1
- Date: Sun, 28 Sep 2025 14:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.532083
- Title: Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models
- Title(参考訳): Token Painter: マスク自動回帰モデルによる学習不要テキストガイド画像の描画
- Authors: Longtao Jiang, Mingfei Han, Lei Chen, Yongqiang Yu, Feng Zhao, Xiaojun Chang, Zhihui Li,
- Abstract要約: 我々は,Mask AutoRegressive(MAR)モデルに基づく,トレーニング不要なテキストガイド画像の描画手法を開発した。
提案手法では,(1)2つの鍵となる要素を紹介する:(1)Dual-Stream Information Fusion (DEIF) は,新しい誘導トークンを生成するために,周波数領域のテキストや背景からのセマンティック情報とコンテキスト情報を融合し,(2)適応デコーダのアタプティブ・スコア・エンハンシング (ADAE) は,誘導トークンのアテンションスコアを適応的に向上する。
- 参考スコア(独自算出の注目度): 48.83801984368506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image inpainting aims to inpaint masked image regions based on a textual prompt while preserving the background. Although diffusion-based methods have become dominant, their property of modeling the entire image in latent space makes it challenging for the results to align well with prompt details and maintain a consistent background. To address these issues, we explore Mask AutoRegressive (MAR) models for this task. MAR naturally supports image inpainting by generating latent tokens corresponding to mask regions, enabling better local controllability without altering the background. However, directly applying MAR to this task makes the inpainting content either ignore the prompts or be disharmonious with the background context. Through analysis of the attention maps from the inpainting images, we identify the impact of background tokens on text tokens during the MAR generation, and leverage this to design \textbf{Token Painter}, a training-free text-guided image inpainting method based on MAR. Our approach introduces two key components: (1) Dual-Stream Encoder Information Fusion (DEIF), which fuses the semantic and context information from text and background in frequency domain to produce novel guidance tokens, allowing MAR to generate text-faithful inpainting content while keeping harmonious with background context. (2) Adaptive Decoder Attention Score Enhancing (ADAE), which adaptively enhances attention scores on guidance tokens and inpainting tokens to further enhance the alignment of prompt details and the content visual quality. Extensive experiments demonstrate that our training-free method outperforms prior state-of-the-art methods across almost all metrics and delivers superior visual results. Codes will be released.
- Abstract(参考訳): テキスト誘導画像の塗装は、背景を保存しながらテキストのプロンプトに基づいてマスクされた画像領域を塗布することを目的としている。
拡散に基づく手法が主流となっているが、画像全体を潜在空間でモデル化するという特性は、結果が迅速な詳細と整合し、一貫した背景を維持することを困難にしている。
これらの問題に対処するため、このタスクのMask AutoRegressive(MAR)モデルについて検討する。
MARは、マスク領域に対応する潜在トークンを生成し、背景を変更することなく、より優れたローカル制御性を実現することにより、画像の塗装を自然にサポートする。
しかし、このタスクにMARを直接適用することで、インペインティングコンテンツはプロンプトを無視したり、バックグラウンドコンテキストに不調和である。
MAR生成時の背景トークンがテキストトークンに与える影響を解析し,これを利用して,MARに基づくトレーニング不要なテキストガイド画像描画手法であるtextbf{Token Painter} を設計する。
提案手法では,1)2つの鍵となるコンポーネントを紹介する。Dual-Stream Encoder Information Fusion (DEIF) は,テキストや背景のコンテキスト情報を周波数領域のテキストや背景から融合し,新たなガイダンストークンを生成する。
2) アダプティブ・デコーダ・アテンション・スコア・エンハンシング(ADAE)は,ガイダンストークンの注意点やペンペントを適応的に強化し,迅速な詳細と内容の視覚的品質の調整を強化する。
大規模な実験により、我々のトレーニング不要の手法は、ほとんどすべての指標において最先端の手法よりも優れており、優れた視覚的結果をもたらすことが示された。
コードはリリースされる。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Locate, Assign, Refine: Taming Customized Promptable Image Inpainting [22.163855501668206]
本稿では,マルチモーダル・プロンプト・イメージ・インパインティング・プロジェクト,新しいタスクモデル,カスタマイズされたイメージ・インパインティングのためのデータを紹介する。
マスクプロンプトに対応する画像中の特定の領域をシームレスに塗布できる,画像塗布の新しいアプローチであるLAR-Genを提案する。
我々のLAR-Genは、ソースイメージのコンテキスト整合性、主観的アイデンティティ整合性、テキスト記述に対する局所的セマンティック整合性、滑らか性整合性を保証するために粗大な方法で採用しています。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - BiLMa: Bidirectional Local-Matching for Text-based Person
Re-identification [2.3931689873603603]
テキストベースの人物再識別(TBPReID)は、与えられたテキストクエリで表現された人物画像を取得することを目的としている。
画像やテキストをグローバルに、そしてローカルに効果的に整列する方法は、重要な課題だ。
TBPReIDモデルトレーニングにおいて,マスク付き画像モデリング(MIM)を協調的に最適化する双方向局所マッチング(LMa)フレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-09T04:01:24Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。