論文の概要: PixelHacker: Image Inpainting with Structural and Semantic Consistency
- arxiv url: http://arxiv.org/abs/2504.20438v2
- Date: Wed, 30 Apr 2025 14:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.763162
- Title: PixelHacker: Image Inpainting with Structural and Semantic Consistency
- Title(参考訳): PixelHacker: 構造的一貫性とセマンティック一貫性を備えたイメージインペインティング
- Authors: Ziyang Xu, Kangsheng Duan, Xiaolei Shen, Zhifeng Ding, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang,
- Abstract要約: 塗り絵は画像編集と画像生成の基本的な研究領域である。
最近のSOTA(State-of-the-art)手法では、新しい注意機構、軽量アーキテクチャ、コンテキスト認識モデリングが研究されている。
我々は、潜在カテゴリガイダンスと呼ばれる単純だが効果的な塗装パラダイムを設計し、PixelHackerという拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 28.984953143157107
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image inpainting is a fundamental research area between image editing and image generation. Recent state-of-the-art (SOTA) methods have explored novel attention mechanisms, lightweight architectures, and context-aware modeling, demonstrating impressive performance. However, they often struggle with complex structure (e.g., texture, shape, spatial relations) and semantics (e.g., color consistency, object restoration, and logical correctness), leading to artifacts and inappropriate generation. To address this challenge, we design a simple yet effective inpainting paradigm called latent categories guidance, and further propose a diffusion-based model named PixelHacker. Specifically, we first construct a large dataset containing 14 million image-mask pairs by annotating foreground and background (potential 116 and 21 categories, respectively). Then, we encode potential foreground and background representations separately through two fixed-size embeddings, and intermittently inject these features into the denoising process via linear attention. Finally, by pre-training on our dataset and fine-tuning on open-source benchmarks, we obtain PixelHacker. Extensive experiments show that PixelHacker comprehensively outperforms the SOTA on a wide range of datasets (Places2, CelebA-HQ, and FFHQ) and exhibits remarkable consistency in both structure and semantics. Project page at https://hustvl.github.io/PixelHacker.
- Abstract(参考訳): 画像の描画は画像編集と画像生成の基本的な研究領域である。
最近のSOTA(State-of-the-art)手法は、新しい注意機構、軽量アーキテクチャ、コンテキスト認識モデリングを探求し、印象的な性能を誇示している。
しかし、それらは複雑な構造(例えば、テクスチャ、形状、空間関係)や意味論(例えば、色の一貫性、オブジェクトの復元、論理的正しさ)に苦しむことが多く、人工物や不適切な生成につながる。
この課題に対処するために、潜在カテゴリガイダンスと呼ばれるシンプルだが効果的な塗装パラダイムを設計し、さらにPixelHackerという拡散モデルを提案する。
具体的には、まず、前景と背景(それぞれ116と21のカテゴリ)をアノテートすることで、1400万のイメージマスク対を含む大規模なデータセットを構築した。
そこで我々は,2つの固定サイズの埋め込みを通して,前景と背景表現を別々に符号化し,間欠的にこれらの特徴を線形注意により認知過程に注入する。
最後に、データセットの事前トレーニングとオープンソースのベンチマークの微調整によって、PixelHackerを取得します。
大規模な実験によると、PixelHackerは幅広いデータセット(Places2、CelebA-HQ、FFHQ)でSOTAを総合的に上回り、構造とセマンティクスの両方において顕著な一貫性を示している。
プロジェクトページはhttps://hustvl.github.io/PixelHacker。
関連論文リスト
- T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Boosting Image Outpainting with Semantic Layout Prediction [18.819765707811904]
我々は、画像ドメインの代わりにセマンティックセグメンテーションドメイン内の領域を拡張するために、GANを訓練する。
別のGANモデルは、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するように訓練されている。
我々のアプローチは意味的な手がかりをより容易に扱えるので、複雑なシナリオではよりうまく機能します。
論文 参考訳(メタデータ) (2021-10-18T13:09:31Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z) - Object-Based Image Coding: A Learning-Driven Revisit [30.550019759674477]
根本的な問題は、任意の形状のオブジェクトを細かい粒度で効率的に処理する方法である。
我々は,画像層分解のためのオブジェクトセグメンテーションネットワークと,マスク付き前景オブジェクトと背景シーンを別々に処理するための並列畳み込みに基づくニューラルイメージ圧縮ネットワークを提案する。
すべてのコンポーネントは、視覚的に快適な再構築のための貢献をインテリジェントに評価するために、エンドツーエンドの学習フレームワークに最適化されています。
論文 参考訳(メタデータ) (2020-03-18T04:00:17Z) - Very Long Natural Scenery Image Prediction by Outpainting [96.8509015981031]
アウトペイントには2つの課題があるため、あまり注意を払わない。
第一の課題は、生成された画像と元の入力の間の空間的および内容的整合性を維持する方法である。
第2の課題は、生成した結果の高品質を維持する方法です。
論文 参考訳(メタデータ) (2019-12-29T16:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。