Fugu-MT 論文翻訳(概要): Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting

論文の概要: Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting

arxiv url: http://arxiv.org/abs/2412.03812v1
Date: Thu, 05 Dec 2024 02:08:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.849781
Title: Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting
Title（参考訳）: ピンコ(Pinco):前景塗装用拡散変圧器における位置誘導整合適応器
Authors: Guangben Lu, Yuzhen Du, Zhimin Sun, Ran Yi, Yifan Qi, Yizhe Tang, Tianyi Wang, Lizhuang Ma, Fangyuan Zou,
Abstract要約: ピンコ (Pinco) は、テキストアライメントの優れた高品質な背景を生成する、前景条件の塗装アダプターである。本手法は, 前景塗装における優れた性能と効率性を実現する。
参考スコア（独自算出の注目度）: 32.030589692062875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foreground-conditioned inpainting aims to seamlessly fill the background region of an image by utilizing the provided foreground subject and a text description. While existing T2I-based image inpainting methods can be applied to this task, they suffer from issues of subject shape expansion, distortion, or impaired ability to align with the text description, resulting in inconsistencies between the visual elements and the text description. To address these challenges, we propose Pinco, a plug-and-play foreground-conditioned inpainting adapter that generates high-quality backgrounds with good text alignment while effectively preserving the shape of the foreground subject. Firstly, we design a Self-Consistent Adapter that integrates the foreground subject features into the layout-related self-attention layer, which helps to alleviate conflicts between the text and subject features by ensuring that the model can effectively consider the foreground subject's characteristics while processing the overall image layout. Secondly, we design a Decoupled Image Feature Extraction method that employs distinct architectures to extract semantic and shape features separately, significantly improving subject feature extraction and ensuring high-quality preservation of the subject's shape. Thirdly, to ensure precise utilization of the extracted features and to focus attention on the subject region, we introduce a Shared Positional Embedding Anchor, greatly improving the model's understanding of subject features and boosting training efficiency. Extensive experiments demonstrate that our method achieves superior performance and efficiency in foreground-conditioned inpainting.
Abstract（参考訳）: 前景条件付き塗装は、提供された前景主題とテキスト記述を利用して、画像の背景領域をシームレスに埋めることを目的としている。既存のT2Iベースの画像インパインティング手法はこのタスクに適用できるが、対象の形状の展開、歪み、あるいはテキスト記述と整合する能力の障害に悩まされ、視覚要素とテキスト記述との間に矛盾が生じている。これらの課題に対処するために,前景の形状を効果的に保ちつつ,高品質な背景をテキストアライメントで生成する,前景用プラグ・アンド・プレイインペインティングアダプタPincoを提案する。まず,前景の主観的特徴をレイアウト関連セルフアテンション層に統合した自己一貫性適応器を設計し,そのモデルが全体像のレイアウトを処理しながら,前景の主観的特徴を効果的に考慮できるようにすることで,テキストと主観的特徴の相違を緩和する。第2に、異なるアーキテクチャを用いて、意味的特徴と形状的特徴を別々に抽出し、被写体の特徴抽出を大幅に改善し、被写体形状の高品質な保存を確保するデカップリング画像特徴抽出法を設計する。第3に,抽出した特徴を正確に活用し,対象領域に注意を向けるために,共有位置埋め込みアンカーを導入する。広汎な実験により, 前景塗装における優れた性能と効率が得られた。

関連論文リスト

A$^\text{T}$A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting [30.214201208361526]
The Text-Guided Subject-Position Variable background Inpainting” は,被写体の位置を動的に調整し,被写体と被写体との調和性を実現することを目的としている。本稿では,所定の特徴量に基づいて適切な変位を適応的に予測するPosAgent Blockを設計し,可変な主観的配置を実現する。我々は、A$textT$Aに位置スイッチ埋め込みを装備し、生成された画像における被写体の位置が適応的に予測されるか固定されるかを制御する。
論文参考訳（メタデータ） (2025-04-02T11:13:46Z)
Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models [20.582222123619285]
本稿では,潜在空間における編集画像の最適化として,パーソナライズされたコンテンツ編集を定式化する学習自由フレームワークを提案する。テキスト・エネルギ・ガイダンスを早期に活用し,対象クラスへの自然な移行を実現するための粗大な戦略を提案する。ドメインギャップが大きくてもオブジェクト置換が優れている。
論文参考訳（メタデータ） (2025-03-06T08:52:29Z)
DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-02T22:29:14Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文参考訳（メタデータ） (2024-01-30T10:04:49Z)
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。 LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文参考訳（メタデータ） (2023-11-21T04:28:12Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
PFB-Diff: Progressive Feature Blending Diffusion for Text-driven Image Editing [8.19063619210761]
PFB-Diffは拡散に基づく画像編集のためのプログレッシブ・フィーチャーブレンディング法である。本手法は, 画像の忠実度, 編集精度, 効率, 忠実度において優れた性能を示す。
論文参考訳（メタデータ） (2023-06-28T11:10:20Z)
Toward Understanding WordArt: Corner-Guided Transformer for Scene Text Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文参考訳（メタデータ） (2022-07-31T14:11:05Z)
Bi-level Feature Alignment for Versatile Image Translation and Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文参考訳（メタデータ） (2021-07-07T05:26:29Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)
Image Inpainting Guided by Coherence Priors of Semantics and Textures [62.92586889409379]
セマンティクスとテクスチャ間のコヒーレンスプリエンスを導入することにより、セマンティクス的な方法で別々のテクスチャを完成させることに集中できる。また,全体構造と詳細なテクスチャの観点から,セマンティクスとインペインテッドイメージの一貫性を制約する2つのコヒーレンス損失を提案する。
論文参考訳（メタデータ） (2020-12-15T02:59:37Z)
Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文参考訳（メタデータ） (2020-06-25T21:18:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。