論文の概要: A$^\text{T}$A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
- arxiv url: http://arxiv.org/abs/2504.01603v1
- Date: Wed, 02 Apr 2025 11:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:26.813709
- Title: A$^\text{T}$A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
- Title(参考訳): A$^\text{T}$A:Adaptive Transformation Agent for Text-Guided Subject-Position-Variable background Inpainting
- Authors: Yizhe Tang, Zhimin Sun, Yuzhen Du, Ran Yi, Guangben Lu, Teng Hu, Luying Li, Lizhuang Ma, Fangyuan Zou,
- Abstract要約: The Text-Guided Subject-Position Variable background Inpainting” は,被写体の位置を動的に調整し,被写体と被写体との調和性を実現することを目的としている。
本稿では,所定の特徴量に基づいて適切な変位を適応的に予測するPosAgent Blockを設計し,可変な主観的配置を実現する。
我々は、A$textT$Aに位置スイッチ埋め込みを装備し、生成された画像における被写体の位置が適応的に予測されるか固定されるかを制御する。
- 参考スコア(独自算出の注目度): 30.214201208361526
- License:
- Abstract: Image inpainting aims to fill the missing region of an image. Recently, there has been a surge of interest in foreground-conditioned background inpainting, a sub-task that fills the background of an image while the foreground subject and associated text prompt are provided. Existing background inpainting methods typically strictly preserve the subject's original position from the source image, resulting in inconsistencies between the subject and the generated background. To address this challenge, we propose a new task, the "Text-Guided Subject-Position Variable Background Inpainting", which aims to dynamically adjust the subject position to achieve a harmonious relationship between the subject and the inpainted background, and propose the Adaptive Transformation Agent (A$^\text{T}$A) for this task. Firstly, we design a PosAgent Block that adaptively predicts an appropriate displacement based on given features to achieve variable subject-position. Secondly, we design the Reverse Displacement Transform (RDT) module, which arranges multiple PosAgent blocks in a reverse structure, to transform hierarchical feature maps from deep to shallow based on semantic information. Thirdly, we equip A$^\text{T}$A with a Position Switch Embedding to control whether the subject's position in the generated image is adaptively predicted or fixed. Extensive comparative experiments validate the effectiveness of our A$^\text{T}$A approach, which not only demonstrates superior inpainting capabilities in subject-position variable inpainting, but also ensures good performance on subject-position fixed inpainting.
- Abstract(参考訳): 画像の塗装は、画像の欠落した領域を埋めることを目的としている。
近年,画像の背景を埋めるサブタスクであるフォアグラウンド塗装への関心が高まっ,フォアグラウンド被写体と関連するテキストプロンプトが提供されるようになった。
既存の背景塗装法は、典型的には被写体の元の位置を原画像から厳密に保存し、被写体と生成された背景との矛盾を生じさせる。
この課題に対処するために、対象と被写体との調和関係を達成するために対象位置を動的に調整することを目的とした新しいタスク「Text-Guided Subject-Position Varable background Inpainting」を提案し、このタスクに対して適応変換エージェント(A$^\text{T}$A)を提案する。
まず、与えられた特徴に基づいて適切な変位を適応的に予測するPosAgent Blockを設計し、可変な主観的配置を実現する。
次に,Reverse Displacement Transform (RDT)モジュールを設計し,複数のPosAgentブロックを逆構造に配置し,意味情報に基づいて階層的特徴写像を深部から浅部へ変換する。
第3に、A$^\text{T}$Aに位置スイッチを埋め込み、生成された画像における被写体の位置が適応的に予測されるか固定されるかを制御する。
A$^\text{T}$Aアプローチの有効性を総合的に検証し,本手法の有効性を検証した。
関連論文リスト
- Pinco: Position-induced Consistent Adapter for Diffusion Transformer in Foreground-conditioned Inpainting [32.030589692062875]
ピンコ (Pinco) は、テキストアライメントの優れた高品質な背景を生成する、前景条件の塗装アダプターである。
本手法は, 前景塗装における優れた性能と効率性を実現する。
論文 参考訳(メタデータ) (2024-12-05T02:08:19Z) - Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator [44.620847608977776]
ディプチッチ・プロンプティング(Diptych Prompting)は、被写体を正確にアライメントした塗装タスクとして再解釈する、新しいゼロショットアプローチである。
提案手法は主観的画像生成だけでなく, 主観的画像生成と主観的画像編集もサポートする。
論文 参考訳(メタデータ) (2024-11-23T06:17:43Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文 参考訳(メタデータ) (2024-01-30T10:04:49Z) - Cylin-Painting: Seamless {360\textdegree} Panoramic Image Outpainting
and Beyond [136.18504104345453]
塗り絵と塗り絵の間に有意義な協調関係を持つキリン塗り絵の枠組みを提示する。
提案アルゴリズムは、オブジェクト検出、深さ推定、画像超解像などの他のパノラマ視覚タスクに効果的に拡張できる。
論文 参考訳(メタデータ) (2022-04-18T21:18:49Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。