論文の概要: PainterNet: Adaptive Image Inpainting with Actual-Token Attention and Diverse Mask Control
- arxiv url: http://arxiv.org/abs/2412.01223v1
- Date: Mon, 02 Dec 2024 07:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:57.659027
- Title: PainterNet: Adaptive Image Inpainting with Actual-Token Attention and Diverse Mask Control
- Title(参考訳): PainterNet: 現実の注意と多面マスク制御による適応的イメージインペインティング
- Authors: Ruichen Wang, Junliang Zhang, Qingsong Xie, Chen Chen, Haonan Lu,
- Abstract要約: PainterNetは様々な拡散モデルに柔軟に埋め込まれるプラグインである。
本稿では,局所的なプロンプト入力,注意制御点(ACP),実際の注意注意損失(ATAL)を提案する。
大規模な実験分析の結果,PaterNetは画像品質やグローバル/ローカルテキスト整合性といった重要な指標において,既存の最先端モデルを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 4.984382582612786
- License:
- Abstract: Recently, diffusion models have exhibited superior performance in the area of image inpainting. Inpainting methods based on diffusion models can usually generate realistic, high-quality image content for masked areas. However, due to the limitations of diffusion models, existing methods typically encounter problems in terms of semantic consistency between images and text, and the editing habits of users. To address these issues, we present PainterNet, a plugin that can be flexibly embedded into various diffusion models. To generate image content in the masked areas that highly aligns with the user input prompt, we proposed local prompt input, Attention Control Points (ACP), and Actual-Token Attention Loss (ATAL) to enhance the model's focus on local areas. Additionally, we redesigned the MASK generation algorithm in training and testing dataset to simulate the user's habit of applying MASK, and introduced a customized new training dataset, PainterData, and a benchmark dataset, PainterBench. Our extensive experimental analysis exhibits that PainterNet surpasses existing state-of-the-art models in key metrics including image quality and global/local text consistency.
- Abstract(参考訳): 近年,拡散モデルによる画像の塗装性能が向上している。
拡散モデルに基づく塗装法は、通常、マスキング領域の現実的で高品質な画像コンテンツを生成することができる。
しかし,拡散モデルの限界により,既存の手法では画像とテキスト間のセマンティックな一貫性やユーザの編集習慣が問題となることが多い。
このような問題に対処するために、様々な拡散モデルに柔軟に組み込むことのできるプラグインであるPaterNetを紹介します。
本研究では,ユーザ入力のプロンプトと高度に一致したマスキング領域の画像コンテンツを生成するために,局所的なプロンプト入力,注意制御ポイント(ACP),実際の注意注意損失(ATAL)を提案する。
さらに、MASKを適用するユーザの習慣をシミュレートするために、トレーニングおよびテストデータセットにおけるMASK生成アルゴリズムを再設計し、カスタマイズされたトレーニングデータセットであるPaterDataと、ベンチマークデータセットであるPaterBenchを導入しました。
大規模な実験分析の結果,PaterNetは画像品質やグローバル/ローカルテキスト整合性といった重要な指標において,既存の最先端モデルを上回っていることがわかった。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model [28.345828491336874]
本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
論文 参考訳(メタデータ) (2024-06-03T07:14:19Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - DiffGANPaint: Fast Inpainting Using Denoising Diffusion GANs [19.690288425689328]
本稿では,不足画素を高速に充填できるDDPMモデルを提案する。
汎用画像インパインティングデータセットの実験は、我々のアプローチが現代のほとんどの作品に匹敵する、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:50:41Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Learning to Inpaint by Progressively Growing the Mask Regions [5.33024001730262]
本研究は,画像インペイントの文脈において,新たなカリキュラムスタイルのトレーニングアプローチを導入する。
提案手法は, テスト時間中に任意の位置において, 任意の大きさと複数の穴が与えられることにより, マスク領域のサイズを段階的に増大させる。
MSCOCOとCelebAデータセットに対する我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-02-21T13:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。