論文の概要: Cross-View Panorama Image Synthesis
- arxiv url: http://arxiv.org/abs/2203.11832v1
- Date: Tue, 22 Mar 2022 15:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 15:18:34.626966
- Title: Cross-View Panorama Image Synthesis
- Title(参考訳): クロスビューパノラマ画像合成
- Authors: Songsong Wu, Hao Tang, Xiao-Yuan Jing, Haifeng Zhao, Jianjun Qian,
Nicu Sebe, and Yan Yan
- Abstract要約: PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
- 参考スコア(独自算出の注目度): 68.35351563852335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of synthesizing a ground-view panorama
image conditioned on a top-view aerial image, which is a challenging problem
due to the large gap between the two image domains with different view-points.
Instead of learning cross-view mapping in a feedforward pass, we propose a
novel adversarial feedback GAN framework named PanoGAN with two key components:
an adversarial feedback module and a dual branch discrimination strategy.
First, the aerial image is fed into the generator to produce a target panorama
image and its associated segmentation map in favor of model training with
layout semantics. Second, the feature responses of the discriminator encoded by
our adversarial feedback module are fed back to the generator to refine the
intermediate representations, so that the generation performance is continually
improved through an iterative generation process. Third, to pursue
high-fidelity and semantic consistency of the generated panorama image, we
propose a pixel-segmentation alignment mechanism under the dual branch
discrimiantion strategy to facilitate cooperation between the generator and the
discriminator. Extensive experimental results on two challenging cross-view
image datasets show that PanoGAN enables high-quality panorama image generation
with more convincing details than state-of-the-art approaches. The source code
and trained models are available at \url{https://github.com/sswuai/PanoGAN}.
- Abstract(参考訳): 本稿では,2つの画像領域の異なる視点領域間のギャップが大きいため,トップビュー空中画像に条件づけられたグランドビューパノラマ画像の合成の問題に対処する。
フィードフォワードパスでクロスビューマッピングを学習する代わりに、PanoGANという名前の新たな逆フィードバックGANフレームワークを2つの重要なコンポーネントとして提案する。
まず, 目標パノラマ画像とその関連するセグメンテーションマップを生成するために, 航空機画像がジェネレータに入力され, レイアウトセマンティクスを用いたモデルトレーニングが好まれる。
第2に、我々の敵フィードバックモジュールで符号化された識別器の特徴応答をジェネレータにフィードバックして中間表現を洗練させ、反復生成プロセスを通じて生成性能を継続的に向上させる。
第3に,生成したパノラマ画像の忠実性と意味的一貫性を追求するために,2つの分岐弁別戦略に基づく画素セグメンテーション機構を提案する。
2つの挑戦的なクロスビュー画像データセットの大規模な実験結果から、パノGANは最先端のアプローチよりもより精確な詳細で高品質なパノラマ画像生成を可能にしている。
ソースコードとトレーニングされたモデルは \url{https://github.com/sswuai/panogan} で入手できる。
関連論文リスト
- Learning Representations for Clustering via Partial Information
Discrimination and Cross-Level Interaction [5.101836008369192]
本稿では、部分的情報識別とクロスレベル相互作用を強制する、PICIと呼ばれる新しいディープ・イメージ・クラスタリング手法を提案する。
特に、トランスフォーマーエンコーダをバックボーンとして利用し、2つの並列化拡張ビューによるマスク画像モデリングを定式化する。
論文 参考訳(メタデータ) (2024-01-24T14:51:33Z) - Learn From Orientation Prior for Radiograph Super-Resolution:
Orientation Operator Transformer [8.009052363001903]
高解像度X線画像は骨格筋関連疾患の早期診断と治療において重要な役割を担っている。
放射線画像場に単一画像超解像(SISR)モデルを導入することにより,画質の向上が期待できる。
従来の画像パイプラインは、色空間と画素間パターンからSRとdenoisingの混合マッピングを学習することができる。
論文 参考訳(メタデータ) (2023-12-27T07:56:24Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion [74.30861504619851]
本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-05T16:24:09Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。