論文の概要: Repositioning the Subject within Image
- arxiv url: http://arxiv.org/abs/2401.16861v2
- Date: Sun, 17 Mar 2024 12:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:12:30.819938
- Title: Repositioning the Subject within Image
- Title(参考訳): 画像内の主題の再配置
- Authors: Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu,
- Abstract要約: 本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
- 参考スコア(独自算出の注目度): 78.8467524191102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Results of SEELE on ReS demonstrate its efficacy.
- Abstract(参考訳): 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的な操作に焦点を当てている。
本稿では,革新的動的操作タスクである主観的再配置を提案する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 被験者が残した空白を埋める, 未確認部分を再構築する, 周囲の領域と整合性のあるものをブレンドするなどの基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。
その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することが可能となった。
さらに,前処理技術と後処理技術を統合し,対象再配置の質をさらに向上させる。
これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。
主観的再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の主観的再配置データセットを組み立てる。
SEELE on ReSの結果は有効性を示した。
関連論文リスト
- Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Image Restoration using Feature-guidance [43.02281823557039]
そこで本稿では,画像の劣化の空間的特性と,画像固有の特性を扱うための新しいアプローチを提案する。
修復作業は,分解局所化と劣化地域誘導修復の2段階に分解する。
この補助作業のために訓練されたモデルは、修復ネットワークのトレーニングをガイドするために活用できる重要な地域知識を含んでいることを実証する。
論文 参考訳(メタデータ) (2022-01-01T13:10:19Z) - Adversarial Image Composition with Auxiliary Illumination [53.89445873577062]
本稿では,現実的な画像合成を実現するためのAIC-Netを提案する。
影の発生と前景の移動を両立させる新しい分岐生成機構を提案する。
歩行者と自動車のコンポジションタスクに関する実験により,提案したAIC-Netが優れたコンポジション性能を実現することを示す。
論文 参考訳(メタデータ) (2020-09-17T12:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。