論文の概要: AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing
- arxiv url: http://arxiv.org/abs/2312.08019v2
- Date: Sun, 24 Dec 2023 05:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:56:07.181549
- Title: AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing
- Title(参考訳): AdapEdit: テキストベース連続感性画像編集のための時空間適応編集アルゴリズム
- Authors: Zhiyuan Ma, Guoli Jia, Bowen Zhou
- Abstract要約: 本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
- 参考スコア(独自算出の注目度): 24.9487669818162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the great success of text-conditioned diffusion models in creative
text-to-image generation, various text-driven image editing approaches have
attracted the attentions of many researchers. However, previous works mainly
focus on discreteness-sensitive instructions such as adding, removing or
replacing specific objects, background elements or global styles (i.e., hard
editing), while generally ignoring subject-binding but semantically
fine-changing continuity-sensitive instructions such as actions, poses or
adjectives, and so on (i.e., soft editing), which hampers generative AI from
generating user-customized visual contents. To mitigate this predicament, we
propose a spatio-temporal guided adaptive editing algorithm AdapEdit, which
realizes adaptive image editing by introducing a soft-attention strategy to
dynamically vary the guiding degree from the editing conditions to visual
pixels from both temporal and spatial perspectives. Note our approach has a
significant advantage in preserving model priors and does not require model
training, fine-tuning, extra data, or optimization. We present our results over
a wide variety of raw images and editing instructions, demonstrating
competitive performance and showing it significantly outperforms the previous
approaches.
- Abstract(参考訳): クリエイティブテキスト・ツー・イメージ生成におけるテキスト条件拡散モデルの成功により、テキスト駆動画像編集アプローチは多くの研究者の注目を集めている。
しかし、従来の研究は、特定のオブジェクト、背景要素、グローバルスタイル(ハード編集)の追加、削除、置換といった離散性に敏感な指示に重点を置いていたが、一般的には、アクション、ポーズ、形容詞などの意味的に微妙な連続性に敏感な指示を無視している(ソフト編集)。
そこで本研究では,時間的・空間的両面から視覚的画素への誘導度を動的に変化させるソフトアテンション戦略を導入し,適応的な画像編集を実現するための時空間適応編集アルゴリズムAdapEditを提案する。
私たちのアプローチは、モデルの事前保存に大きな利点があり、モデルトレーニング、微調整、追加データ、最適化を必要としないことに注意してください。
我々は,様々な生画像と編集手順で結果を示し,競合性能を示し,従来の手法を大きく上回る結果を示した。
関連論文リスト
- InstructGIE: Towards Generalizable Image Editing [36.90841880248305]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。