論文の概要: Repositioning the Subject within Image
- arxiv url: http://arxiv.org/abs/2401.16861v1
- Date: Tue, 30 Jan 2024 10:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 15:29:57.793860
- Title: Repositioning the Subject within Image
- Title(参考訳): 画像内の主題の再配置
- Authors: Yikai Wang, Chenjie Cao, Qiaole Dong, Yifan Li, Yanwei Fu
- Abstract要約: 本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
- 参考スコア(独自算出の注目度): 56.60660775884127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image manipulation primarily centers on static manipulation, such as
replacing specific regions within an image or altering its overall style. In
this paper, we introduce an innovative dynamic manipulation task, subject
repositioning. This task involves relocating a user-specified subject to a
desired position while preserving the image's fidelity. Our research reveals
that the fundamental sub-tasks of subject repositioning, which include filling
the void left by the repositioned subject, reconstructing obscured portions of
the subject and blending the subject to be consistent with surrounding areas,
can be effectively reformulated as a unified, prompt-guided inpainting task.
Consequently, we can employ a single diffusion generative model to address
these sub-tasks using various task prompts learned through our proposed task
inversion technique. Additionally, we integrate pre-processing and
post-processing techniques to further enhance the quality of subject
repositioning. These elements together form our SEgment-gEnerate-and-bLEnd
(SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we
assemble a real-world subject repositioning dataset called ReS. Our results on
ReS demonstrate the quality of repositioned image generation.
- Abstract(参考訳): 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的操作に焦点を当てている。
本稿では,革新的動的操作タスクである主観的再配置を提案する。
このタスクは、画像の忠実性を維持しながら、ユーザ特定対象を所望の位置に移動させることである。
本研究は, 再配置対象が残した空隙を埋める, 未確認部分を再構築し, 周囲と整合性を持たせることを含む, 基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。
その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することができる。
さらに,前処理技術と後処理技術を統合し,対象再配置の品質をさらに向上させる。
これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。
対象再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の対象再配置データセットを組み立てる。
ReSの結果は, 再構成画像の画質を示すものである。
関連論文リスト
- SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。
本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。
その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-09-07T11:52:48Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Adversarial Image Composition with Auxiliary Illumination [53.89445873577062]
本稿では,現実的な画像合成を実現するためのAIC-Netを提案する。
影の発生と前景の移動を両立させる新しい分岐生成機構を提案する。
歩行者と自動車のコンポジションタスクに関する実験により,提案したAIC-Netが優れたコンポジション性能を実現することを示す。
論文 参考訳(メタデータ) (2020-09-17T12:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。