論文の概要: InstantSwap: Fast Customized Concept Swapping across Sharp Shape Differences
- arxiv url: http://arxiv.org/abs/2412.01197v2
- Date: Tue, 03 Dec 2024 03:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:58.318673
- Title: InstantSwap: Fast Customized Concept Swapping across Sharp Shape Differences
- Title(参考訳): InstantSwap:シャープ形状の違いにまたがる高速なカスタマイズコンセプトスワップ
- Authors: Chenyang Zhu, Kai Li, Yue Ma, Longxiang Tang, Chengyu Fang, Chubin Chen, Qifeng Chen, Xiu Li,
- Abstract要約: InstantSwapはシャープな形状の相違を高速で処理することを目的とした新しいCSS手法である。
背景整合性のために、スワップ処理中にbboxの外側の勾配を除去する。
フォアグラウンド整合性には、ソースとターゲットの両方の概念に意味情報を注入するクロスアテンション機構を用いる。
- 参考スコア(独自算出の注目度): 60.14659263341016
- License:
- Abstract: Recent advances in Customized Concept Swapping (CCS) enable a text-to-image model to swap a concept in the source image with a customized target concept. However, the existing methods still face the challenges of inconsistency and inefficiency. They struggle to maintain consistency in both the foreground and background during concept swapping, especially when the shape difference is large between objects. Additionally, they either require time-consuming training processes or involve redundant calculations during inference. To tackle these issues, we introduce InstantSwap, a new CCS method that aims to handle sharp shape disparity at speed. Specifically, we first extract the bbox of the object in the source image automatically based on attention map analysis and leverage the bbox to achieve both foreground and background consistency. For background consistency, we remove the gradient outside the bbox during the swapping process so that the background is free from being modified. For foreground consistency, we employ a cross-attention mechanism to inject semantic information into both source and target concepts inside the box. This helps learn semantic-enhanced representations that encourage the swapping process to focus on the foreground objects. To improve swapping speed, we avoid computing gradients at each timestep but instead calculate them periodically to reduce the number of forward passes, which improves efficiency a lot with a little sacrifice on performance. Finally, we establish a benchmark dataset to facilitate comprehensive evaluation. Extensive evaluations demonstrate the superiority and versatility of InstantSwap. Project Page: https://instantswap.github.io/
- Abstract(参考訳): カスタマイズされたコンセプトスワッピング(CCS)の最近の進歩により、テキスト・ツー・イメージモデルでは、ソースイメージのコンセプトをカスタマイズされたターゲットコンセプトに置き換えることができる。
しかし、既存の手法はいまだに一貫性と非効率性の課題に直面している。
彼らは、特に物体間の形状の違いが大きい場合、概念交換の間、前景と背景の両方で一貫性を維持するのに苦労する。
さらに、それらは時間を要するトレーニングプロセスを必要とするか、推論中に冗長な計算を伴います。
これらの問題に対処するために、高速で鋭い形状の相違に対処することを目的とした新しいCCS手法であるInstantSwapを導入する。
具体的には、まず、アテンションマップ解析に基づいて、ソース画像中のオブジェクトのbboxを自動的に抽出し、bboxを活用して、前景と背景の整合性を両立させる。
背景整合性のために、スワップ処理中にbboxの外側の勾配を除去し、背景が変更されないようにする。
前景の一貫性のために、ボックス内のソースとターゲットの両方の概念に意味情報を注入するクロスアテンション機構を用いる。
これは、前景オブジェクトにフォーカスするスワッピングプロセスを促進するセマンティック強化された表現を学ぶのに役立つ。
スワップ速度を改善するために、各ステップでの計算勾配を回避し、代わりに定期的に計算してフォワードパスの数を減らし、性能を犠牲にして効率を大幅に改善する。
最後に,包括的評価を容易にするためのベンチマークデータセットを構築した。
広範囲な評価は、InstantSwapの優位性と汎用性を示している。
Project Page: https://instantswap.github.io/
関連論文リスト
- Towards Cross-View-Consistent Self-Supervised Surround Depth Estimation [9.569646683579899]
連続画像からの自己監督下周深度推定は経済的な代替手段を提供する。
従来のSSSDE法では、画像間で情報を融合する異なるメカニズムが提案されているが、それらのいくつかは、クロスビュー制約を明示的に考慮している。
本稿では,SSSDEのクロスビュー一貫性を高めるために,効率的で一貫したポーズ推定設計と2つの損失関数を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:29:05Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - Efficient Transformer based Method for Remote Sensing Image Change
Detection [17.553240434628087]
シーン内のオブジェクトの複雑さのため、高解像度なリモートセンシングcdは依然として困難である。
空間時間領域内のコンテキストを効率的に効果的にモデル化するためのバイテンポラル画像変換器(BiT)を提案する。
BiTベースのモデルは、計算コストとモデルパラメータのわずか3倍のコストで純粋に畳み込みベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-02-27T13:08:46Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。