論文の概要: Structural-analogy from a Single Image Pair
- arxiv url: http://arxiv.org/abs/2004.02222v3
- Date: Wed, 6 Jan 2021 16:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:13:05.957660
- Title: Structural-analogy from a Single Image Pair
- Title(参考訳): 単一画像対による構造解析
- Authors: Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen-Or, Lior Wolf
- Abstract要約: 本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
- 参考スコア(独自算出の注目度): 118.61885732829117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of unsupervised image-to-image translation has seen substantial
advancements in recent years through the use of deep neural networks.
Typically, the proposed solutions learn the characterizing distribution of two
large, unpaired collections of images, and are able to alter the appearance of
a given image, while keeping its geometry intact. In this paper, we explore the
capabilities of neural networks to understand image structure given only a
single pair of images, A and B. We seek to generate images that are
structurally aligned: that is, to generate an image that keeps the appearance
and style of B, but has a structural arrangement that corresponds to A. The key
idea is to map between image patches at different scales. This enables
controlling the granularity at which analogies are produced, which determines
the conceptual distinction between style and content. In addition to structural
alignment, our method can be used to generate high quality imagery in other
conditional generation tasks utilizing images A and B only: guided image
synthesis, style and texture transfer, text translation as well as video
translation. Our code and additional results are available in
https://github.com/rmokady/structural-analogy/.
- Abstract(参考訳): 教師なし画像から画像への翻訳のタスクは、ディープニューラルネットワークの利用によって近年大きく進歩している。
典型的には、提案された解は2つの大きな対向しない画像の集合の分布を特徴付けることを学び、その形状をそのままに保ちながら、与えられた画像の外観を変えることができる。
本稿では,1対のイメージAとBのみを与えられた画像構造を理解するニューラルネットワークの機能について検討する。我々は,Bの外観とスタイルを保ちながら,Aに対応する構造的配置を持つ画像を生成するという,構造的に整合した画像を生成することを目指している。
これにより、類似が生成される粒度の制御が可能になり、スタイルと内容の区別が決定される。
構造的アライメントに加えて,画像A,Bのみを用いた条件生成作業において,ガイド画像合成,スタイルおよびテクスチャ転送,テキスト翻訳,ビデオ翻訳などの高品質な画像を生成するためにも使用できる。
私たちのコードと追加結果はhttps://github.com/rmokady/structural-analogy/で閲覧できます。
関連論文リスト
- SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Describing Sets of Images with Textual-PCA [89.46499914148993]
画像の集合を意味的に記述し、単一の画像の属性とセット内のバリエーションの両方をキャプチャする。
我々の手順は原理成分分析と類似しており、射影ベクトルの役割を生成されたフレーズに置き換える。
論文 参考訳(メタデータ) (2022-10-21T17:10:49Z) - Review Neural Networks about Image Transformation Based on IGC Learning
Framework with Annotated Information [13.317099281011515]
コンピュータビジョン(CV)では、多くの問題が画像変換タスク(セマンティックセグメンテーションやスタイル転送など)と見なすことができる。
一部の調査では、画像変換の一分野であるスタイル変換やイメージ・ツー・イメージ変換の研究についてのみレビューしている。
本稿では,独立学習,指導学習,協調学習を含む新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T07:27:47Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Dual Graph Convolutional Networks with Transformer and Curriculum
Learning for Image Captioning [26.496357517937614]
既存の画像キャプション手法は、単一のイメージ内のオブジェクトやインスタンスの関係を理解することだけに焦点を当てている。
画像キャプションのための変換器とカリキュラム学習を備えたデュアルグラフ畳み込みネットワーク(Dual-GCN)を提案する。
論文 参考訳(メタデータ) (2021-08-05T04:57:06Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。