論文の概要: Ultra High-Resolution Image Inpainting with Patch-Based Content Consistency Adapter
- arxiv url: http://arxiv.org/abs/2510.13419v1
- Date: Wed, 15 Oct 2025 11:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.639251
- Title: Ultra High-Resolution Image Inpainting with Patch-Based Content Consistency Adapter
- Title(参考訳): Patch-based Content Consistency Adapter を用いた超高分解能イメージパインティング
- Authors: Jianhui Zhang, Sheng Cheng, Qirui Sun, Jia Liu, Wang Luyang, Chaoyu Feng, Chen Fang, Lei Lei, Jue Wang, Shuaicheng Liu,
- Abstract要約: Patch-Adapterは高解像度テキスト誘導画像の描画に有効なフレームワークである。
提案手法は,正確な内容の整合性を維持しつつ4K以上の分解能を達成し,迅速なアライメントを実現する。
実験によると、Patch-Adapterは、大規模な塗布に共通するアーティファクトを解決するだけでなく、最先端のパフォーマンスも達成している。
- 参考スコア(独自算出の注目度): 47.512192547392026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Patch-Adapter, an effective framework for high-resolution text-guided image inpainting. Unlike existing methods limited to lower resolutions, our approach achieves 4K+ resolution while maintaining precise content consistency and prompt alignment, two critical challenges in image inpainting that intensify with increasing resolution and texture complexity. Patch-Adapter leverages a two-stage adapter architecture to scale the diffusion model's resolution from 1K to 4K+ without requiring structural overhauls: (1) Dual Context Adapter learns coherence between masked and unmasked regions at reduced resolutions to establish global structural consistency; and (2) Reference Patch Adapter implements a patch-level attention mechanism for full-resolution inpainting, preserving local detail fidelity through adaptive feature fusion. This dual-stage architecture uniquely addresses the scalability gap in high-resolution inpainting by decoupling global semantics from localized refinement. Experiments demonstrate that Patch-Adapter not only resolves artifacts common in large-scale inpainting but also achieves state-of-the-art performance on the OpenImages and Photo-Concept-Bucket datasets, outperforming existing methods in both perceptual quality and text-prompt adherence.
- Abstract(参考訳): 本研究では,高分解能テキスト誘導画像インペイントのための効果的なフレームワークであるPatch-Adapterを提案する。
解像度の低下に制限された既存手法とは異なり,本手法は,解像度の増大とテクスチャの複雑さを増大させるイメージインペイントにおける2つの重要な課題である,正確なコンテント一貫性と迅速なアライメントを維持しつつ,4K+の解像度を達成する。
Patch-Adapterは2段階のアダプタアーキテクチャを利用して、拡散モデルの解像度を1Kから4K+にスケールする。(1) デュアルコンテキストアダプタは、グローバルな構造的整合性を確立するために、縮小された解像度でマスクされた領域とアンマスクされた領域のコヒーレンスを学習する。
このデュアルステージアーキテクチャは、局所的な洗練からグローバルなセマンティクスを分離することで、高解像度のインペインティングにおけるスケーラビリティギャップを独特に解決する。
実験によると、Patch-Adapterは、大規模な塗装に共通するアーティファクトを解決するだけでなく、OpenImagesとPhoto-Concept-Bucketデータセットの最先端のパフォーマンスも達成し、知覚品質とテキストプロンプトの両面で既存の手法よりも優れています。
関連論文リスト
- Local-Global Context-Aware and Structure-Preserving Image Super-Resolution [23.87231269881077]
安定拡散(Stable Diffusion)のような事前訓練されたテキスト・ツー・イメージモデルは、リアルな画像コンテンツを合成する強力な能力を示した。
本稿では,局所的およびグローバルな画素関係を効果的に維持する,文脈的に正確な画像超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T07:17:31Z) - Enhancing Image Matting in Real-World Scenes with Mask-Guided Iterative Refinement [4.006320049969407]
Mask2Alphaは、画像マッチングにおけるセマンティック理解、インスタンス認識、詳細回復を強化するために設計された反復的な改善フレームワークである。
本フレームワークでは,自己教師型視覚変換機能をセマンティックプリエントとして活用し,複雑なシナリオにおけるコンテキスト理解を強化する。
Mask2Alphaは、常に最先端の結果を達成し、正確かつ効率的な画像マッチングにおけるその有効性を示している。
論文 参考訳(メタデータ) (2025-02-24T12:16:28Z) - Directing Mamba to Complex Textures: An Efficient Texture-Aware State Space Model for Image Restoration [75.51789992466183]
TAMAMbaIRは画像テクスチャの達成と性能と効率のトレードオフを同時に知覚する。
画像超解像, デラリニング, 低照度画像強調のためのベンチマーク実験により, TAMAMbaIRは高い効率で最先端の性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-01-27T23:53:49Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Feature Refinement to Improve High Resolution Image Inpainting [1.4824891788575418]
塗装ネットワークは、トレーニングセットよりも高い解像度でグローバルコヒーレントな構造を生成できないことが多い。
推論におけるマルチスケールの一貫性損失を最小限に抑えることにより,ネットワークの中間的特徴マップを最適化する。
このランタイム最適化は、塗装結果を改善し、高分解能塗装のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-06-27T21:59:12Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。