Fugu-MT 論文翻訳(概要): Repositioning the Subject within Image

論文の概要: Repositioning the Subject within Image

arxiv url: http://arxiv.org/abs/2401.16861v3
Date: Tue, 19 Nov 2024 03:08:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.472682
Title: Repositioning the Subject within Image
Title（参考訳）: 画像内の主題の再配置
Authors: Yikai Wang, Chenjie Cao, Ke Fan, Qiaole Dong, Yifan Li, Xiangyang Xue, Yanwei Fu,
Abstract要約: 本稿では,革新的動的操作タスク,主題再構成を導入する。このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
参考スコア（独自算出の注目度）: 78.8467524191102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current image manipulation primarily centers on static manipulation, such as replacing specific regions within an image or altering its overall style. In this paper, we introduce an innovative dynamic manipulation task, subject repositioning. This task involves relocating a user-specified subject to a desired position while preserving the image's fidelity. Our research reveals that the fundamental sub-tasks of subject repositioning, which include filling the void left by the repositioned subject, reconstructing obscured portions of the subject and blending the subject to be consistent with surrounding areas, can be effectively reformulated as a unified, prompt-guided inpainting task. Consequently, we can employ a single diffusion generative model to address these sub-tasks using various task prompts learned through our proposed task inversion technique. Additionally, we integrate pre-processing and post-processing techniques to further enhance the quality of subject repositioning. These elements together form our SEgment-gEnerate-and-bLEnd (SEELE) framework. To assess SEELE's effectiveness in subject repositioning, we assemble a real-world subject repositioning dataset called ReS. Results of SEELE on ReS demonstrate its efficacy. Code and ReS dataset are available at https://yikai-wang.github.io/seele/.
Abstract（参考訳）: 現在の画像操作は、画像内の特定の領域の置き換えや全体的なスタイルの変更など、主に静的な操作に焦点を当てている。本稿では,革新的動的操作タスクである主観的再配置を提案する。このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。本研究は, 被験者が残した空白を埋める, 未確認部分を再構築する, 周囲の領域と整合性のあるものをブレンドするなどの基礎的なサブタスクを, 統一的かつ迅速な塗装作業として効果的に再構築できることを明らかにする。その結果,提案手法を用いて学習したタスクプロンプトを用いて,これらのサブタスクに単一の拡散生成モデルを適用することが可能となった。さらに,前処理技術と後処理技術を統合し,対象再配置の質をさらに向上させる。これらの要素は共に、SEgment-gEnerate-and-bLEnd(SEELE)フレームワークを形成します。主観的再配置におけるSEELEの有効性を評価するために,ReSと呼ばれる実世界の主観的再配置データセットを組み立てる。 SEELE on ReSの結果は有効性を示した。コードとReSデータセットはhttps://yikai-wang.github.io/seele/.com/で公開されている。

関連論文リスト

CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文参考訳（メタデータ） (2025-06-23T09:19:38Z)
A$^\text{T}$A: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting [30.214201208361526]
The Text-Guided Subject-Position Variable background Inpainting” は,被写体の位置を動的に調整し,被写体と被写体との調和性を実現することを目的としている。本稿では,所定の特徴量に基づいて適切な変位を適応的に予測するPosAgent Blockを設計し,可変な主観的配置を実現する。我々は、A$textT$Aに位置スイッチ埋め込みを装備し、生成された画像における被写体の位置が適応的に予測されるか固定されるかを制御する。
論文参考訳（メタデータ） (2025-04-02T11:13:46Z)
Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models [20.582222123619285]
本稿では,潜在空間における編集画像の最適化として,パーソナライズされたコンテンツ編集を定式化する学習自由フレームワークを提案する。テキスト・エネルギ・ガイダンスを早期に活用し,対象クラスへの自然な移行を実現するための粗大な戦略を提案する。ドメインギャップが大きくてもオブジェクト置換が優れている。
論文参考訳（メタデータ） (2025-03-06T08:52:29Z)
SpotActor: Training-Free Layout-Controlled Consistent Image Generation [43.2870588035256]
双対セマンティックラテント空間における最適化による二元エネルギー誘導の新しい形式化を提案する。本研究では,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニングフリーパイプラインSpotActorを提案する。その結果、SpotActorはこのタスクの期待を達成し、実用的な応用の可能性を示した。
論文参考訳（メタデータ） (2024-09-07T11:52:48Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文参考訳（メタデータ） (2023-05-30T18:00:06Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。 SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文参考訳（メタデータ） (2022-04-20T07:35:51Z)
Adversarial Image Composition with Auxiliary Illumination [53.89445873577062]
本稿では,現実的な画像合成を実現するためのAIC-Netを提案する。影の発生と前景の移動を両立させる新しい分岐生成機構を提案する。歩行者と自動車のコンポジションタスクに関する実験により,提案したAIC-Netが優れたコンポジション性能を実現することを示す。
論文参考訳（メタデータ） (2020-09-17T12:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。