論文の概要: DeFLOCNet: Deep Image Editing via Flexible Low-level Controls
- arxiv url: http://arxiv.org/abs/2103.12723v1
- Date: Tue, 23 Mar 2021 17:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:49:21.200164
- Title: DeFLOCNet: Deep Image Editing via Flexible Low-level Controls
- Title(参考訳): DeFLOCNet:フレキシブル低レベル制御による深層画像編集
- Authors: Hongyu Liu, Ziyu Wan, Wei Huang, Yibing Song, Xintong Han, Jing Liao,
Bing Jiang, Wei Liu
- Abstract要約: 粗い低レベルの入力は、コンテンツ作成に対するユーザの意図を伝える。
既存の方法は入力画像とこれらのCNN入力の低レベル制御を組み合わせる。
これらの制御のガイダンスを維持するために、ディープエンコーダデコーダCNNを使用するDeFLOCNetを提案します。
- 参考スコア(独自算出の注目度): 45.01187722239724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User-intended visual content fills the hole regions of an input image in the
image editing scenario. The coarse low-level inputs, which typically consist of
sparse sketch lines and color dots, convey user intentions for content creation
(\ie, free-form editing). While existing methods combine an input image and
these low-level controls for CNN inputs, the corresponding feature
representations are not sufficient to convey user intentions, leading to
unfaithfully generated content. In this paper, we propose DeFLOCNet which
relies on a deep encoder-decoder CNN to retain the guidance of these controls
in the deep feature representations. In each skip-connection layer, we design a
structure generation block. Instead of attaching low-level controls to an input
image, we inject these controls directly into each structure generation block
for sketch line refinement and color propagation in the CNN feature space. We
then concatenate the modulated features with the original decoder features for
structure generation. Meanwhile, DeFLOCNet involves another decoder branch for
texture generation and detail enhancement. Both structures and textures are
rendered in the decoder, leading to user-intended editing results. Experiments
on benchmarks demonstrate that DeFLOCNet effectively transforms different user
intentions to create visually pleasing content.
- Abstract(参考訳): ユーザ意図の視覚コンテンツは、画像編集シナリオにおいて入力画像の穴領域を埋める。
粗い低レベルの入力は、通常、スパーススケッチラインとカラードットで構成され、コンテンツ作成のためのユーザの意図を伝える(自由形式の編集)。
既存の手法では入力画像とcnn入力の低レベル制御を組み合わせるが、対応する特徴表現はユーザの意図を伝えるのに十分ではなく、不適切なコンテンツを生成する。
本稿では,DeFLOCNetを提案する。DeFLOCNetはディープエンコーダデコーダCNNを利用して,これらの制御のガイダンスを深層特徴表現に保持する。
各スキップ接続層では、構造生成ブロックを設計する。
入力画像に低レベル制御を付加する代わりに、これらの制御を各構造生成ブロックに直接注入し、cnn特徴空間におけるスケッチラインの洗練とカラー伝搬を行う。
次に、構造生成のために変調された特徴とオリジナルのデコーダの特徴を結合する。
一方、DeFLOCNetはテクスチャ生成と詳細拡張のための別のデコーダブランチを含んでいる。
構造とテクスチャはデコーダでレンダリングされ、ユーザが意図した編集結果につながる。
ベンチマークの実験では、DeFLOCNetは視覚的に喜ばしいコンテンツを作成するために、様々なユーザの意図を効果的に変換している。
関連論文リスト
- Block and Detail: Scaffolding Sketch-to-Image Generation [65.56590359051634]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。
私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。
反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-28T07:09:31Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。
本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文 参考訳(メタデータ) (2023-02-06T18:50:23Z) - DE-Net: Dynamic Text-guided Image Editing Adversarial Networks [82.67199573030513]
様々な編集要求に対して動的に空間的・チャネル的に操作する動的編集ブロック(DEBlock)を提案する。
我々のDE-Netは優れた性能を実現し、より効果的かつ正確にソース画像を操作する。
論文 参考訳(メタデータ) (2022-06-02T17:20:52Z) - SoftPool++: An Encoder-Decoder Network for Point Cloud Completion [93.54286830844134]
本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。
提案した演算子は、最大プールやボキセル化操作を一切必要としない。
提案手法は,低解像度・高解像度の形状仕上げにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T15:31:36Z) - Text2LIVE: Text-Driven Layered Image and Video Editing [13.134513605107808]
自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
論文 参考訳(メタデータ) (2022-04-05T21:17:34Z) - CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields [33.43993665841577]
ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。
ユーザフレンドリーな方法でNeRFを操作できる統一的なフレームワークを提案する。
我々は、様々なテキストプロンプトや模範画像に関する広範な実験により、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-09T18:59:55Z) - ID-Unet: Iterative Soft and Hard Deformation for View Synthesis [13.042336671109059]
本稿では, 音源から目標への変形を反復的に行う新しいアーキテクチャを提案する。
我々は、異なる解像度でターゲットビューにエンコーダの特徴を歪めるソフトとハード変形モジュールを設計します。
モデルをよりよく制約するために,中間フローとその歪んだ特徴に基づいて,粗い目標視像を合成する。
論文 参考訳(メタデータ) (2021-03-03T09:02:00Z) - Rethinking Image Inpainting via a Mutual Encoder-Decoder with Feature
Equalizations [32.22936171220001]
相互エンコーダ・デコーダCNNを用いて,構造とテクスチャの同時回復を提案する。
入力画像の構造やテクスチャを表現するために,エンコーダの深い層と浅い層からCNN機能を利用する。
評価実験の結果,提案手法は構造やテクスチャの復元に有効であり,最先端のアプローチに対して良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-07-14T09:39:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。