論文の概要: Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency
- arxiv url: http://arxiv.org/abs/2312.04831v3
- Date: Sun, 18 May 2025 05:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.11351
- Title: Towards Enhanced Image Inpainting: Mitigating Unwanted Object Insertion and Preserving Color Consistency
- Title(参考訳): 画像インペインティングの強化に向けて:望ましくない物体の挿入の軽減と色一貫性の保存
- Authors: Yikai Wang, Chenjie Cao, Junqiu Yu, Ke Fan, Xiangyang Xue, Yanwei Fu,
- Abstract要約: ASUKA(Aigned Stable Inpainting with UnKnown Areas)と呼ばれるポストプロセッシングアプローチは、インパインティングモデルを改善する。
Masked Auto-Encoder (MAE) は、オブジェクト幻覚を緩和する。
ローカルタスクとしてラテント・ツー・イメージ・デコーディングを扱う特殊なVAEデコーダ。
- 参考スコア(独自算出の注目度): 78.0488707697235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image inpainting increasingly use generative models to handle large irregular masks. However, these models can create unrealistic inpainted images due to two main issues: (1) Unwanted object insertion: Even with unmasked areas as context, generative models may still generate arbitrary objects in the masked region that don't align with the rest of the image. (2) Color inconsistency: Inpainted regions often have color shifts that causes a smeared appearance, reducing image quality. Retraining the generative model could help solve these issues, but it's costly since state-of-the-art latent-based diffusion and rectified flow models require a three-stage training process: training a VAE, training a generative U-Net or transformer, and fine-tuning for inpainting. Instead, this paper proposes a post-processing approach, dubbed as ASUKA (Aligned Stable inpainting with UnKnown Areas prior), to improve inpainting models. To address unwanted object insertion, we leverage a Masked Auto-Encoder (MAE) for reconstruction-based priors. This mitigates object hallucination while maintaining the model's generation capabilities. To address color inconsistency, we propose a specialized VAE decoder that treats latent-to-image decoding as a local harmonization task, significantly reducing color shifts for color-consistent inpainting. We validate ASUKA on SD 1.5 and FLUX inpainting variants with Places2 and MISATO, our proposed diverse collection of datasets. Results show that ASUKA mitigates object hallucination and improves color consistency over standard diffusion and rectified flow models and other inpainting methods.
- Abstract(参考訳): 画像インペイントの最近の進歩は、大きな不規則マスクを扱うために生成モデルの利用が増えている。
1) 不要なオブジェクト挿入: マスキングされた領域をコンテキストとして使用しても、生成モデルは、画像の残りの部分と整合しないマスクされた領域で任意のオブジェクトを生成することができる。
2) 彩色不整合: 塗布された領域は, 色調が変化し, 外観に悪影響を及ぼし, 画質が低下することが多い。
生成モデルをトレーニングすることはこれらの問題を解決するのに役立つかもしれませんが、最先端の潜伏ベースの拡散と修正フローモデルには、VAEのトレーニング、生成するU-Netまたはトランスフォーマーのトレーニング、塗装の微調整という3段階のトレーニングプロセスが必要です。
そこで本稿では,ASUKA (Aligned Stable inpainting with UnKnown Areas) と呼ばれるポストプロセッシング手法を提案する。
不要なオブジェクト挿入に対処するために,Masked Auto-Encoder (MAE) を用いる。
これにより、モデルの生成能力を保ちながらオブジェクト幻覚を緩和する。
色の不整合に対処するため,局所的調和タスクとして潜像復号処理を行う専用VAEデコーダを提案する。
ASUKAをSD 1.5およびFLUXでPlaces2およびMISATOに塗布し,多種多様なデータセットのコレクションとして検証した。
その結果, ASUKAは物体の幻覚を緩和し, 標準拡散や修正流モデル, その他の塗布法よりも色の整合性を向上させることがわかった。
関連論文リスト
- Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z) - MixMask: Revisiting Masking Strategy for Siamese ConvNets [23.946791390657875]
この研究は、textbfMixMaskと呼ばれる新しいフィリングベースのマスキング手法を導入している。
提案手法は,消去された領域を別の画像からのコンテンツに置き換えることにより,従来のマスキング手法で見られる情報の枯渇を効果的に解消する。
我々は,線形探索,半教師付きおよび教師付きファインタニング,オブジェクト検出,セグメンテーションなどの領域におけるフレームワークの性能向上を実証的に検証した。
論文 参考訳(メタデータ) (2022-10-20T17:54:03Z) - Image Inpainting by End-to-End Cascaded Refinement with Mask Awareness [66.55719330810547]
任意の欠落領域を塗りつぶすことは、様々なマスクされた領域で有効な特徴を学ぶことは非自明だから難しい。
符号化フェーズにおける欠落領域のマルチスケール特徴を学習する新しいマスク対応インペイントソリューションを提案する。
私たちのフレームワークは、3つの公開データセットに関する広範な実験を通じて定量的および定性的に検証されます。
論文 参考訳(メタデータ) (2021-04-28T13:17:47Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。