論文の概要: Repositioning the Subject within Image
- arxiv url: http://arxiv.org/abs/2401.16861v3
- Date: Tue, 19 Nov 2024 03:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:55.598728
- Title: Repositioning the Subject within Image
- Title(参考訳): 画像内の主題の再配置
- Authors: Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu,
- Abstract要約: 本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
- 参考スコア(独自算出の注目度): 78.8467524191102
- License:
- Abstract: Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Results of SEELE on ReS demonstrate its efficacy. Code and ReS dataset are available at https://yikai-wang.github.io/seele/.
- Abstract(参考訳): 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的な操作に焦点を当てている。
本稿では,革新的動的操作タスクである主観的再配置を提案する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 被験者が残した空白を埋める, 未確認部分を再構築する, 周囲の領域と整合性のあるものをブレンドするなどの基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。
その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することが可能となった。
さらに,前処理技術と後処理技術を統合し,対象再配置の質をさらに向上させる。
これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。
主観的再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の主観的再配置データセットを組み立てる。
SEELE on ReSの結果は有効性を示した。
コードとReSデータセットはhttps://yikai-wang.github.io/seele/.com/で公開されている。
関連論文リスト
- SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。
本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。
その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-09-07T11:52:48Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Image Restoration using Feature-guidance [43.02281823557039]
そこで本稿では,画像の劣化の空間的特性と,画像固有の特性を扱うための新しいアプローチを提案する。
修復作業は,分解局所化と劣化地域誘導修復の2段階に分解する。
この補助作業のために訓練されたモデルは、修復ネットワークのトレーニングをガイドするために活用できる重要な地域知識を含んでいることを実証する。
論文 参考訳(メタデータ) (2022-01-01T13:10:19Z) - Adversarial Image Composition with Auxiliary Illumination [53.89445873577062]
本稿では,現実的な画像合成を実現するためのAIC-Netを提案する。
影の発生と前景の移動を両立させる新しい分岐生成機構を提案する。
歩行者と自動車のコンポジションタスクに関する実験により,提案したAIC-Netが優れたコンポジション性能を実現することを示す。
論文 参考訳(メタデータ) (2020-09-17T12:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。