論文の概要: Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting
- arxiv url: http://arxiv.org/abs/2412.03812v1
- Date: Thu, 05 Dec 2024 02:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:58.520932
- Title: Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting
- Title(参考訳): ピンコ(Pinco):前景塗装用拡散変圧器における位置誘導整合適応器
- Authors: Guangben Lu, Yuzhen Du, Zhimin Sun, Ran Yi, Yifan Qi, Yizhe Tang, Tianyi Wang, Lizhuang Ma, Fangyuan Zou,
- Abstract要約: ピンコ (Pinco) は、テキストアライメントの優れた高品質な背景を生成する、前景条件の塗装アダプターである。
本手法は, 前景塗装における優れた性能と効率性を実現する。
- 参考スコア(独自算出の注目度): 32.030589692062875
- License:
- Abstract: Foreground-conditioned inpainting aims to seamlessly fill the background region of an image by utilizing the provided foreground subject and a text description. While existing T2I-based image inpainting methods can be applied to this task, they suffer from issues of subject shape expansion, distortion, or impaired ability to align with the text description, resulting in inconsistencies between the visual elements and the text description. To address these challenges, we propose Pinco, a plug-and-play foreground-conditioned inpainting adapter that generates high-quality backgrounds with good text alignment while effectively preserving the shape of the foreground subject. Firstly, we design a Self-Consistent Adapter that integrates the foreground subject features into the layout-related self-attention layer, which helps to alleviate conflicts between the text and subject features by ensuring that the model can effectively consider the foreground subject's characteristics while processing the overall image layout. Secondly, we design a Decoupled Image Feature Extraction method that employs distinct architectures to extract semantic and shape features separately, significantly improving subject feature extraction and ensuring high-quality preservation of the subject's shape. Thirdly, to ensure precise utilization of the extracted features and to focus attention on the subject region, we introduce a Shared Positional Embedding Anchor, greatly improving the model's understanding of subject features and boosting training efficiency. Extensive experiments demonstrate that our method achieves superior performance and efficiency in foreground-conditioned inpainting.
- Abstract(参考訳): 前景条件付き塗装は、提供された前景主題とテキスト記述を利用して、画像の背景領域をシームレスに埋めることを目的としている。
既存のT2Iベースの画像インパインティング手法はこのタスクに適用できるが、対象の形状の展開、歪み、あるいはテキスト記述と整合する能力の障害に悩まされ、視覚要素とテキスト記述との間に矛盾が生じている。
これらの課題に対処するために,前景の形状を効果的に保ちつつ,高品質な背景をテキストアライメントで生成する,前景用プラグ・アンド・プレイインペインティングアダプタPincoを提案する。
まず,前景の主観的特徴をレイアウト関連セルフアテンション層に統合した自己一貫性適応器を設計し,そのモデルが全体像のレイアウトを処理しながら,前景の主観的特徴を効果的に考慮できるようにすることで,テキストと主観的特徴の相違を緩和する。
第2に、異なるアーキテクチャを用いて、意味的特徴と形状的特徴を別々に抽出し、被写体の特徴抽出を大幅に改善し、被写体形状の高品質な保存を確保するデカップリング画像特徴抽出法を設計する。
第3に,抽出した特徴を正確に活用し,対象領域に注意を向けるために,共有位置埋め込みアンカーを導入する。
広汎な実験により, 前景塗装における優れた性能と効率が得られた。
関連論文リスト
- DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文 参考訳(メタデータ) (2024-01-30T10:04:49Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - PFB-Diff: Progressive Feature Blending Diffusion for Text-driven Image
Editing [8.19063619210761]
PFB-Diffは拡散に基づく画像編集のためのプログレッシブ・フィーチャーブレンディング法である。
本手法は, 画像の忠実度, 編集精度, 効率, 忠実度において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-28T11:10:20Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。