論文の概要: Learning to Incorporate Structure Knowledge for Image Inpainting
- arxiv url: http://arxiv.org/abs/2002.04170v2
- Date: Wed, 12 Feb 2020 03:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:14:52.656761
- Title: Learning to Incorporate Structure Knowledge for Image Inpainting
- Title(参考訳): 画像インペインティングのための構造知識を組み込む学習
- Authors: Jie Yang, Zhiquan Qi, Yong Shi
- Abstract要約: 本稿では,画像の描画を支援するために,画像構造知識を取り入れたマルチタスク学習フレームワークを開発する。
第一のアイデアは、共有ジェネレータをトレーニングして、破損した画像と対応する構造を同時に完成させることである。
また,学習した構造特徴を塗布プロセスに明示的に埋め込む構造埋め込み方式も導入する。
- 参考スコア(独自算出の注目度): 20.93448933499842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper develops a multi-task learning framework that attempts to
incorporate the image structure knowledge to assist image inpainting, which is
not well explored in previous works. The primary idea is to train a shared
generator to simultaneously complete the corrupted image and corresponding
structures --- edge and gradient, thus implicitly encouraging the generator to
exploit relevant structure knowledge while inpainting. In the meantime, we also
introduce a structure embedding scheme to explicitly embed the learned
structure features into the inpainting process, thus to provide possible
preconditions for image completion. Specifically, a novel pyramid structure
loss is proposed to supervise structure learning and embedding. Moreover, an
attention mechanism is developed to further exploit the recurrent structures
and patterns in the image to refine the generated structures and contents.
Through multi-task learning, structure embedding besides with attention, our
framework takes advantage of the structure knowledge and outperforms several
state-of-the-art methods on benchmark datasets quantitatively and
qualitatively.
- Abstract(参考訳): 本稿では,画像インパインティングを支援するために,画像構造知識を取り入れようとするマルチタスク学習フレームワークを開発した。
第一のアイデアは、共有ジェネレータをトレーニングして、破損した画像と対応する構造 -- エッジと勾配 -- を同時に完了させることである。
その間,学習した構造特徴をインペインティングプロセスに明示的に埋め込む構造埋め込みスキームを導入し,画像補完のための前提条件を提供する。
具体的には,構造学習と埋め込みを監督するために,新しいピラミッド構造損失を提案する。
さらに,画像中のリカレント構造とパターンをさらに活用し,生成した構造と内容の精細化を図るための注意機構を開発した。
マルチタスク学習と構造埋め込みに加えて,このフレームワークは構造知識を活用し,ベンチマークデータセットにおける最先端手法を定量的・定性的に上回っている。
関連論文リスト
- Learning Correlation Structures for Vision Transformers [93.22434535223587]
構造自己注意(StructSA)と呼ばれる新しい注意機構を導入する。
我々は、畳み込みによるキー-クエリ相関の時空間構造を認識して注意マップを生成する。
これは、シーンレイアウト、オブジェクトの動き、オブジェクト間の関係など、画像やビデオのリッチな構造パターンを効果的に活用する。
論文 参考訳(メタデータ) (2024-04-05T07:13:28Z) - ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation [82.88378582161717]
最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。
本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
論文 参考訳(メタデータ) (2023-11-22T09:23:34Z) - Structural and Statistical Texture Knowledge Distillation for Semantic
Segmentation [72.67912031720358]
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
構造的テクスチャ知識のために,低レベルの特徴を分解するContourlet Decomposition Module (CDM)を導入する。
本稿では, 統計的テクスチャ知識を適応的に抽出し, 強化するDenoized Texture Intensity Equalization Module (DTIEM)を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:01:11Z) - Joint Language Semantic and Structure Embedding for Knowledge Graph
Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。
本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。
各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文 参考訳(メタデータ) (2022-09-19T02:41:02Z) - Unsupervised Structure-Consistent Image-to-Image Translation [6.282068591820945]
Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
論文 参考訳(メタデータ) (2022-08-24T13:47:15Z) - Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand [28.32208483559088]
インペイントアルゴリズムの性能は、生成された構造やテクスチャによってよりよく判断できると主張している。
本稿では,2つの設計の利点を組み合わせた新しい塗装ネットワークを提案する。
本モデルは,構造生成と繰り返しテクスチャ合成の両面において,最先端の性能に匹敵する視覚的品質を実現する。
論文 参考訳(メタデータ) (2022-08-05T20:42:13Z) - Reference-Guided Texture and Structure Inference for Image Inpainting [25.775006005766222]
インペインティングのための10K対の入力画像と参照画像を含むベンチマークデータセットを構築した。
入力画像のテクスチャや構造的特徴を推測するために,エンコーダ・デコーダ構造を採用する。
さらに、参照画像の誘導により、入力画像のこれらの特徴を洗練するように、特徴アライメントモジュールを設計する。
論文 参考訳(メタデータ) (2022-07-29T06:26:03Z) - Image Inpainting via Conditional Texture and Structure Dual Generation [26.97159780261334]
本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構築をモデル化した, 画像インペイントのための新しい2ストリームネットワークを提案する。
グローバルな一貫性を高めるため、双方向Gated Feature Fusion (Bi-GFF)モジュールは構造情報とテクスチャ情報を交換・結合するように設計されている。
CelebA、Paris StreetView、Places2データセットの実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-08-22T15:44:37Z) - Retinal Image Segmentation with a Structure-Texture Demixing Network [62.69128827622726]
複雑な構造とテクスチャ情報は網膜画像に混在し、その情報の識別が困難である。
既存の手法はテクスチャと構造を共同で扱うため、偏りのあるモデルをテクスチャ認識に導くことができ、結果としてセグメンテーション性能は低下する。
本稿では,構造成分とテクスチャ成分を分離し,性能を大幅に向上させるセグメンテーション戦略を提案する。
論文 参考訳(メタデータ) (2020-07-15T12:19:03Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。