論文の概要: Bi-level Feature Alignment for Versatile Image Translation and
Manipulation
- arxiv url: http://arxiv.org/abs/2107.03021v1
- Date: Wed, 7 Jul 2021 05:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 23:22:19.594137
- Title: Bi-level Feature Alignment for Versatile Image Translation and
Manipulation
- Title(参考訳): Versatile Image TranslationとManipulationのための2レベル特徴アライメント
- Authors: Fangneng Zhan, Yingchen Yu, Rongliang Wu, Kaiwen Cui, Aoran Xiao,
Shijian Lu, Ling Shao
- Abstract要約: GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
- 参考スコア(独自算出の注目度): 88.5915443957795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative adversarial networks (GANs) have achieved great success in image
translation and manipulation. However, high-fidelity image generation with
faithful style control remains a grand challenge in computer vision. This paper
presents a versatile image translation and manipulation framework that achieves
accurate semantic and style guidance in image generation by explicitly building
a correspondence. To handle the quadratic complexity incurred by building the
dense correspondences, we introduce a bi-level feature alignment strategy that
adopts a top-$k$ operation to rank block-wise features followed by dense
attention between block features which reduces memory cost substantially. As
the top-$k$ operation involves index swapping which precludes the gradient
propagation, we propose to approximate the non-differentiable top-$k$ operation
with a regularized earth mover's problem so that its gradient can be
effectively back-propagated. In addition, we design a novel semantic position
encoding mechanism that builds up coordinate for each individual semantic
region to preserve texture structures while building correspondences. Further,
we design a novel confidence feature injection module which mitigates mismatch
problem by fusing features adaptively according to the reliability of built
correspondences. Extensive experiments show that our method achieves superior
performance qualitatively and quantitatively as compared with the
state-of-the-art. The code is available at
\href{https://github.com/fnzhan/RABIT}{https://github.com/fnzhan/RABIT}.
- Abstract(参考訳): generative adversarial networks (gans) は画像翻訳と操作において大きな成功を収めている。
しかし、忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて大きな課題である。
本稿では,対応関係を明示的に構築することで,画像生成における意味的・スタイル的指導を実現する多彩な画像翻訳・操作フレームワークを提案する。
高い対応性を構築することによって生じる二次的複雑性に対処するため,ブロックワイド特徴のランク付けにトップ$kの演算を併用し,メモリコストを大幅に削減するブロック特徴間の重み付けを行うバイレベル特徴アライメント戦略を導入する。
勾配伝播を阻害する指数スワップを含むトップ$kの演算では、非微分不可能なトップ$kの演算を正規化アースモービルの問題で近似し、その勾配が効果的に逆伝播できるようにすることを提案する。
さらに,個々の意味領域の座標を構築し,対応関係を構築しながらテクスチャ構造を保存する新しい意味位置符号化機構を設計する。
さらに,組込み対応の信頼性に応じて特徴を適応的に融合することによりミスマッチ問題を緩和する,新たな信頼度機能インジェクションモジュールを設計した。
実験の結果,本手法は最先端技術と比較して質的,定量的に優れた性能を発揮することがわかった。
コードは \href{https://github.com/fnzhan/rabit}{https://github.com/fnzhan/rabit} で入手できる。
関連論文リスト
- A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - GOCor: Bringing Globally Optimized Correspondence Volumes into Your
Neural Network [176.3781969089004]
特徴相関層は、画像ペア間の密接な対応を含むコンピュータビジョン問題において、重要なニューラルネットワークモジュールとして機能する。
我々は,特徴相関層の直接置換として機能する,完全に微分可能な密マッチングモジュール GOCor を提案する。
本手法は,幾何マッチング,光学フロー,密接なセマンティックマッチングのタスクにおいて,特徴相関層を著しく上回っている。
論文 参考訳(メタデータ) (2020-09-16T17:33:01Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。