論文の概要: MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting
- arxiv url: http://arxiv.org/abs/2506.23482v1
- Date: Mon, 30 Jun 2025 03:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.902617
- Title: MTADiffusion: Mask Text Alignment Diffusion Model for Object Inpainting
- Title(参考訳): MTADiffusion:物体塗布用マスクテキスト配向拡散モデル
- Authors: Jun Huang, Ting Liu, Yihang Wu, Xiaochao Qu, Luoqi Liu, Xiaolin Hu,
- Abstract要約: MTADiffusionは,物体塗布のためのマスクテキスト配向拡散モデルである。
MTAPipelineをベースとして,500万の画像と2500万のマスクテキストペアからなる新しいMTAデータセットを構築した。
スタイル整合性を促進するために,事前学習したVGGネットワークとGram行列を用いた新しいスタイル整合性損失を提案する。
- 参考スコア(独自算出の注目度): 24.950822394526554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in generative models have enabled image inpainting models to generate content within specific regions of an image based on provided prompts and masks. However, existing inpainting methods often suffer from problems such as semantic misalignment, structural distortion, and style inconsistency. In this work, we present MTADiffusion, a Mask-Text Alignment diffusion model designed for object inpainting. To enhance the semantic capabilities of the inpainting model, we introduce MTAPipeline, an automatic solution for annotating masks with detailed descriptions. Based on the MTAPipeline, we construct a new MTADataset comprising 5 million images and 25 million mask-text pairs. Furthermore, we propose a multi-task training strategy that integrates both inpainting and edge prediction tasks to improve structural stability. To promote style consistency, we present a novel inpainting style-consistency loss using a pre-trained VGG network and the Gram matrix. Comprehensive evaluations on BrushBench and EditBench demonstrate that MTADiffusion achieves state-of-the-art performance compared to other methods.
- Abstract(参考訳): 生成モデルの進歩により、提供されたプロンプトとマスクに基づいて、画像の特定の領域内でコンテンツを生成することができる。
しかし、既存の塗装法は、意味的不一致、構造的歪み、スタイルの不整合といった問題に悩まされることが多い。
本研究では,物体塗布用Mask-Textアライメント拡散モデルMTADiffusionを提案する。
塗布モデルのセマンティック機能を高めるために, 詳細な説明付きアノテートマスクの自動解法であるMTAPipelineを導入する。
MTAPipelineに基づいて,500万の画像と2500万のマスクテキストペアからなる新しいMTAデータセットを構築した。
さらに,塗装作業とエッジ予測タスクを統合し,構造安定性を向上させるマルチタスクトレーニング戦略を提案する。
スタイル整合性を促進するために,事前学習したVGGネットワークとGram行列を用いた新しいスタイル整合性損失を提案する。
BrushBench と EditBench の総合評価は,MTADiffusion が他の手法と比較して最先端の性能を達成することを示した。
関連論文リスト
- BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - PainterNet: Adaptive Image Inpainting with Actual-Token Attention and Diverse Mask Control [4.984382582612786]
PainterNetは様々な拡散モデルに柔軟に埋め込まれるプラグインである。
本稿では,局所的なプロンプト入力,注意制御点(ACP),実際の注意注意損失(ATAL)を提案する。
大規模な実験分析の結果,PaterNetは画像品質やグローバル/ローカルテキスト整合性といった重要な指標において,既存の最先端モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-02T07:40:47Z) - DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。
その結果,トレーニングされたモデルは,オブジェクトの追加タスクと一般的な編集タスクの両方において,既存のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-04-28T15:07:53Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency [78.0488707697235]
ASUKA(Aigned Stable Inpainting with UnKnown Areas)と呼ばれるポストプロセッシングアプローチは、インパインティングモデルを改善する。
Masked Auto-Encoder (MAE) は、オブジェクト幻覚を緩和する。
ローカルタスクとしてラテント・ツー・イメージ・デコーディングを扱う特殊なVAEデコーダ。
論文 参考訳(メタデータ) (2023-12-08T05:08:06Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - SmartBrush: Text and Shape Guided Object Inpainting with Diffusion Model [27.91089554671927]
ジェネリック・イメージ・インペイントは、周辺情報を借りて、腐敗したイメージを完成させることを目的としている。
対照的に、マルチモーダル・インパインティングは、インパインされたコンテンツに対してより柔軟で有用なコントロールを提供する。
テキストと形状誘導の両方を用いて、オブジェクトで欠落した領域を完了するための拡散モデルSmartBrushを提案する。
論文 参考訳(メタデータ) (2022-12-09T18:36:13Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。