論文の概要: DE-Net: Dynamic Text-guided Image Editing Adversarial Networks
- arxiv url: http://arxiv.org/abs/2206.01160v1
- Date: Thu, 2 Jun 2022 17:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 15:48:50.273171
- Title: DE-Net: Dynamic Text-guided Image Editing Adversarial Networks
- Title(参考訳): DE-Net: 動的テキスト誘導画像編集支援ネットワーク
- Authors: Ming Tao, Bing-Kun Bao, Hao Tang, Fei Wu, Longhui Wei, Qi Tian
- Abstract要約: 様々な編集要求に対して動的に空間的・チャネル的に操作する動的編集ブロック(DEBlock)を提案する。
我々のDE-Netは優れた性能を実現し、より効果的かつ正確にソース画像を操作する。
- 参考スコア(独自算出の注目度): 82.67199573030513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image editing models have shown remarkable results. However,
there remain two problems. First, they employ fixed manipulation modules for
various editing requirements (e.g., color changing, texture changing, content
adding and removing), which result in over-editing or insufficient editing.
Second, they do not clearly distinguish between text-required parts and
text-irrelevant parts, which leads to inaccurate editing. To solve these
limitations, we propose: (i) a Dynamic Editing Block (DEBlock) which combines
spatial- and channel-wise manipulations dynamically for various editing
requirements. (ii) a Combination Weights Predictor (CWP) which predicts the
combination weights for DEBlock according to the inference on text and visual
features. (iii) a Dynamic text-adaptive Convolution Block (DCBlock) which
queries source image features to distinguish text-required parts and
text-irrelevant parts. Extensive experiments demonstrate that our DE-Net
achieves excellent performance and manipulates source images more effectively
and accurately. Code is available at \url{https://github.com/tobran/DE-Net}.
- Abstract(参考訳): テキスト誘導画像編集モデルは顕著な結果を示した。
しかし、問題は2つある。
まず、様々な編集要件(色変更、テクスチャ変更、コンテンツの追加、削除など)に固定的な操作モジュールを使用し、過剰な編集や不十分な編集に繋がる。
第2に、テキスト要求部分とテキスト関連部分を明確に区別しないため、不正確な編集につながる。
これらの制限を解決するために 提案します
(i)様々な編集要件に対して動的に空間的・チャネル的操作を組み合わせる動的編集ブロック(デブロック)。
(ii)テキスト及び視覚特徴の推論に応じてデブロックの組合せ重みを予測する組合せ重み予測器(cwp)。
(iii)動的テキスト適応畳み込みブロック(dcblock)は、テキスト要求部分とテキスト関連部分とを区別するために、ソース画像の特徴をクエリする。
広範な実験によって、de-netは優れたパフォーマンスを達成し、ソースイメージをより効果的かつ正確に操作できることが示されました。
コードは \url{https://github.com/tobran/DE-Net} で入手できる。
関連論文リスト
- An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。