論文の概要: Cross-View Image Synthesis with Deformable Convolution and Attention
Mechanism
- arxiv url: http://arxiv.org/abs/2007.09858v1
- Date: Mon, 20 Jul 2020 03:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:39:27.997757
- Title: Cross-View Image Synthesis with Deformable Convolution and Attention
Mechanism
- Title(参考訳): 変形可能な畳み込みと注意機構を用いたクロスビュー画像合成
- Authors: Hao Ding, Songsong Wu, Hao Tang, Fei Wu, Guangwei Gao and Xiao-Yuan
Jing
- Abstract要約: 本稿では、変形可能な畳み込みとアテンション機構に基づくGAN(Generative Adversarial Networks)を用いて、クロスビュー画像合成の問題を解決することを提案する。
シーンの外観や意味情報を他の視点から理解し、変換することは困難であり、U-netネットワークにおける変形畳み込みを用いて、異なるスケールのオブジェクトの特徴を抽出するネットワークの能力を向上させる。
- 参考スコア(独自算出の注目度): 29.528402825356398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to generate natural scenes has always been a daunting task in
computer vision. This is even more laborious when generating images with very
different views. When the views are very different, the view fields have little
overlap or objects are occluded, leading the task very challenging. In this
paper, we propose to use Generative Adversarial Networks(GANs) based on a
deformable convolution and attention mechanism to solve the problem of
cross-view image synthesis (see Fig.1). It is difficult to understand and
transform scenes appearance and semantic information from another view, thus we
use deformed convolution in the U-net network to improve the network's ability
to extract features of objects at different scales. Moreover, to better learn
the correspondence between images from different views, we apply an attention
mechanism to refine the intermediate feature map thus generating more realistic
images. A large number of experiments on different size images on the Dayton
dataset[1] show that our model can produce better results than state-of-the-art
methods.
- Abstract(参考訳): 自然のシーンを作り出すことを学ぶことは、コンピュータビジョンにおいて常に厄介なタスクでした。
異なるビューで画像を生成する場合、これはさらに手間がかかります。
ビューが非常に異なる場合、ビューフィールドはオーバーラップがほとんどなく、オブジェクトが隠されているため、タスクは非常に難しい。
本稿では、変形可能な畳み込みと注意機構に基づくGAN(Generative Adversarial Networks)を用いて、クロスビュー画像合成の問題を解決することを提案する(図1参照)。
シーンの外観や意味情報を他の視点から理解し、変換することは困難であり、U-netネットワークにおける変形畳み込みを用いて、異なるスケールのオブジェクトの特徴を抽出するネットワークの能力を向上させる。
さらに、異なる視点から画像間の対応をよりよく学習するために、中間特徴マップを洗練するために注意機構を適用し、より現実的な画像を生成する。
デイトンデータセットの異なるサイズの画像に関する多数の実験[1]は、我々のモデルが最先端の手法よりも優れた結果が得られることを示している。
関連論文リスト
- Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Tuning computer vision models with task rewards [88.45787930908102]
モデル予測と意図された使用法とのミスは、コンピュータビジョンモデルの展開に有害である。
自然言語処理では、モデルとタスク報酬を整合させる強化学習技術を用いて、この問題に対処することが多い。
我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
論文 参考訳(メタデータ) (2023-02-16T11:49:48Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Fine-grained Image-to-Image Transformation towards Visual Recognition [102.51124181873101]
我々は,入力画像の同一性を保った画像を生成するために,微細なカテゴリで画像を変換することを目的としている。
我々は、画像のアイデンティティと非関連要因をアンハングルするために、生成的敵ネットワークに基づくモデルを採用する。
CompCarsとMulti-PIEデータセットの実験では、我々のモデルが生成した画像のアイデンティティを、最先端の画像-画像変換モデルよりもはるかによく保存していることが示された。
論文 参考訳(メタデータ) (2020-01-12T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。