論文の概要: CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training
- arxiv url: http://arxiv.org/abs/2203.11947v1
- Date: Tue, 22 Mar 2022 16:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 05:01:56.012254
- Title: CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training
- Title(参考訳): CM-GAN: カスケード変調GANとオブジェクト認識トレーニングによるイメージインペインティング
- Authors: Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Eli Shechtman,
Connelly Barnes, Jianming Zhang, Ning Xu, Sohrab Amirghodsi, and Jiebo Luo
- Abstract要約: 複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
- 参考スコア(独自算出の注目度): 112.96224800952724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent image inpainting methods have made great progress but often struggle
to generate plausible image structures when dealing with large holes in complex
images. This is partially due to the lack of effective network structures that
can capture both the long-range dependency and high-level semantics of an
image. To address these problems, we propose cascaded modulation GAN (CM-GAN),
a new network design consisting of an encoder with Fourier convolution blocks
that extract multi-scale feature representations from the input image with
holes and a StyleGAN-like decoder with a novel cascaded global-spatial
modulation block at each scale level. In each decoder block, global modulation
is first applied to perform coarse semantic-aware structure synthesis, then
spatial modulation is applied on the output of global modulation to further
adjust the feature map in a spatially adaptive fashion. In addition, we design
an object-aware training scheme to prevent the network from hallucinating new
objects inside holes, fulfilling the needs of object removal tasks in
real-world scenarios. Extensive experiments are conducted to show that our
method significantly outperforms existing methods in both quantitative and
qualitative evaluation.
- Abstract(参考訳): 最近の画像塗装法は大きな進歩を遂げているが、複雑な画像に大きな穴をあける場合、しばしば可塑性画像構造を生成するのに苦労している。
これは部分的には、画像の長距離依存性と高レベルセマンティクスの両方をキャプチャできる効果的なネットワーク構造がないためである。
これらの問題に対処するために、入力画像から複数スケールの特徴表現を抽出するフーリエ畳み込みブロックを持つエンコーダと、各スケールレベルで新しい大域空間変調ブロックを持つスタイルGAN様デコーダからなる新しいネットワーク設計であるカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックでは、まず大域変調を適用して粗い意味認識構造合成を行い、次に大域変調の出力に空間変調を施し、空間的に適応した方法で特徴マップをさらに調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすためのオブジェクト認識学習手法を設計する。
本手法は, 定量評価と定性評価の両方において, 既存手法よりも有意に優れていた。
関連論文リスト
- Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Adaptive Single Image Deblurring [43.02281823557039]
本稿では,画像間の大きなぼやけた変化を扱うために,効率的な画素適応化と特徴注意設計を提案する。
また、性能を大幅に向上させる効果的なコンテンツ認識グローバルローカルフィルタリングモジュールを提案する。
論文 参考訳(メタデータ) (2022-01-01T10:10:19Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Toward a Controllable Disentanglement Network [22.968760397814993]
本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。
ソフトターゲット表現の実際の値空間を探索することにより、指定された特性を持つ新規な画像を合成することができる。
論文 参考訳(メタデータ) (2020-01-22T16:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。