論文の概要: Repositioning the Subject within Image
- arxiv url: http://arxiv.org/abs/2401.16861v1
- Date: Tue, 30 Jan 2024 10:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 15:29:57.793860
- Title: Repositioning the Subject within Image
- Title(参考訳): 画像内の主題の再配置
- Authors: Yikai Wang, Chenjie Cao, Qiaole Dong, Yifan Li, Yanwei Fu
- Abstract要約: 本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
- 参考スコア(独自算出の注目度): 56.60660775884127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current image manipulation primarily centers on static manipulation, such as
replacing specific regions within an image or altering its overall style. In
this paper, we introduce an innovative dynamic manipulation task, subject
repositioning. This task involves relocating a user-specified subject to a
desired position while preserving the image's fidelity. Our research reveals
that the fundamental sub-tasks of subject repositioning, which include filling
the void left by the repositioned subject, reconstructing obscured portions of
the subject and blending the subject to be consistent with surrounding areas,
can be effectively reformulated as a unified, prompt-guided inpainting task.
Consequently, we can employ a single diffusion generative model to address
these sub-tasks using various task prompts learned through our proposed task
inversion technique. Additionally, we integrate pre-processing and
post-processing techniques to further enhance the quality of subject
repositioning. These elements together form our SEgment-gEnerate-and-bLEnd
(SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we
assemble a real-world subject repositioning dataset called ReS. Our results on
ReS demonstrate the quality of repositioned image generation.
- Abstract(参考訳): 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的操作に焦点を当てている。
本稿では,革新的動的操作タスクである主観的再配置を提案する。
このタスクは、画像の忠実性を維持しながら、ユーザ特定対象を所望の位置に移動させることである。
本研究は, 再配置対象が残した空隙を埋める, 未確認部分を再構築し, 周囲と整合性を持たせることを含む, 基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。
その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することができる。
さらに,前処理技術と後処理技術を統合し,対象再配置の品質をさらに向上させる。
これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。
対象再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の対象再配置データセットを組み立てる。
ReSの結果は, 再構成画像の画質を示すものである。
関連論文リスト
- Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Image Restoration using Feature-guidance [43.02281823557039]
そこで本稿では,画像の劣化の空間的特性と,画像固有の特性を扱うための新しいアプローチを提案する。
修復作業は,分解局所化と劣化地域誘導修復の2段階に分解する。
この補助作業のために訓練されたモデルは、修復ネットワークのトレーニングをガイドするために活用できる重要な地域知識を含んでいることを実証する。
論文 参考訳(メタデータ) (2022-01-01T13:10:19Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Generative and Discriminative Learning for Distorted Image Restoration [22.230017059874445]
Liquifyは、画像の歪みに使用できる画像編集のテクニックである。
本稿では,深層ニューラルネットワークに基づく新しい生成的・識別的学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T14:01:29Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z) - Adversarial Image Composition with Auxiliary Illumination [53.89445873577062]
本稿では,現実的な画像合成を実現するためのAIC-Netを提案する。
影の発生と前景の移動を両立させる新しい分岐生成機構を提案する。
歩行者と自動車のコンポジションタスクに関する実験により,提案したAIC-Netが優れたコンポジション性能を実現することを示す。
論文 参考訳(メタデータ) (2020-09-17T12:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。