論文の概要: Panoramic Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2304.04960v1
- Date: Tue, 11 Apr 2023 04:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:17:11.070572
- Title: Panoramic Image-to-Image Translation
- Title(参考訳): パノラマ画像から画像への変換
- Authors: Soohyun Kim, Junho Kim, Taekyung Kim, Hwan Heo, Seungryong Kim,
Jiyoung Lee, Jin-Hwa Kim
- Abstract要約: パノラマ画像変換(Pano-I2I)の課題に初めて取り組む。
この課題は、パノラマ画像の幾何学的歪みと、天候や時間といった様々な条件のパノラマ画像データセットが欠如しているために困難である。
ピンホール画像から参照するグローバルなスタイルを一貫して翻訳しながらパノラマ画像の構造を保存するパノラマ歪み認識型I2Iモデルを提案する。
- 参考スコア(独自算出の注目度): 37.9486466936501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we tackle the challenging task of Panoramic Image-to-Image
translation (Pano-I2I) for the first time. This task is difficult due to the
geometric distortion of panoramic images and the lack of a panoramic image
dataset with diverse conditions, like weather or time. To address these
challenges, we propose a panoramic distortion-aware I2I model that preserves
the structure of the panoramic images while consistently translating their
global style referenced from a pinhole image. To mitigate the distortion issue
in naive 360 panorama translation, we adopt spherical positional embedding to
our transformer encoders, introduce a distortion-free discriminator, and apply
sphere-based rotation for augmentation and its ensemble. We also design a
content encoder and a style encoder to be deformation-aware to deal with a
large domain gap between panoramas and pinhole images, enabling us to work on
diverse conditions of pinhole images. In addition, considering the large
discrepancy between panoramas and pinhole images, our framework decouples the
learning procedure of the panoramic reconstruction stage from the translation
stage. We show distinct improvements over existing I2I models in translating
the StreetLearn dataset in the daytime into diverse conditions. The code will
be publicly available online for our community.
- Abstract(参考訳): 本稿では,パノラマ画像対画像変換(pano-i2i)の課題に初めて取り組む。
この課題は、パノラマ画像の幾何学的歪みと、天候や時間といった様々な条件を持つパノラマ画像データセットの欠如のために難しい。
そこで本研究では,パノラマ画像の構造を保存しつつ,ピンホール画像から参照されるグローバルスタイルを一貫して翻訳するパノラマ歪み認識i2iモデルを提案する。
直交360パノラマ変換における歪み問題を緩和するため,変換器エンコーダに球面位置埋め込みを導入し,歪みのない判別器を導入し,球面回転を拡大とアンサンブルに適用した。
また,パノラマ画像とピンホール画像の間の大きな領域ギャップに対処するために,変形を考慮したコンテンツエンコーダとスタイルエンコーダを設計した。
また,パノラマ画像とピンホール画像の相違が大きいことから,パノラマ画像再構成段階の学習手順を翻訳段階から分離する。
日中のstreetlearnデータセットを多種多様な条件に翻訳する上で,既存のi2iモデルと異なる改善点を示す。
コードはコミュニティ向けにオンラインで公開される予定だ。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - Multi-source Domain Adaptation for Panoramic Semantic Segmentation [22.367890439050786]
パノラマ的セマンティックセグメンテーションのためのマルチソースドメイン適応のための新しいタスクを提案する。
本研究の目的は, 実際のピンホール合成パノラマ画像の両方をソース領域で活用することであり, セグメンテーションモデルが未ラベルの実際のパノラマ画像に対して良好に動作できるようにすることである。
DTA4PASSはソースドメインのすべてのピンホール画像をパノラマのようなイメージに変換し、変換されたソースドメインをターゲットドメインに整列させる。
論文 参考訳(メタデータ) (2024-08-29T12:00:11Z) - Taming Stable Diffusion for Text to 360° Panorama Image Generation [74.69314801406763]
そこで本研究では,テキストプロンプトから360度画像を生成するためにPanFusionという2分岐拡散モデルを提案する。
本研究では,協調的認知過程における歪みを最小限に抑えるために,投射認識を備えたユニークなクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:46:14Z) - PanoSwin: a Pano-style Swin Transformer for Panorama Understanding [15.115868803355081]
等方射影(ERP)は境界の不連続性と空間歪みを含む。
我々はパノラマ表現をERPで学習するためにPanoSwinを提案する。
各種パノラマ作業における最先端技術に対する実験を行う。
論文 参考訳(メタデータ) (2023-08-28T17:30:14Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - Local-to-Global Panorama Inpainting for Locale-Aware Indoor Lighting
Prediction [28.180205012351802]
単一視点の画像からパノラマ的な室内照明を予測することは、コンピュータビジョンとグラフィックスの基本的な問題である。
最近の手法は主に、ワープされたパノラマの不足した内容を満たすために畳み込みニューラルネットワーク(CNN)に依存している。
大規模パノラマ塗布における局所的・言語的戦略を提案する。
論文 参考訳(メタデータ) (2023-03-18T06:18:49Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。