論文の概要: 2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction
- arxiv url: http://arxiv.org/abs/2409.09969v1
- Date: Mon, 16 Sep 2024 04:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:40:52.885114
- Title: 2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction
- Title(参考訳): 2S-ODIS:幾何歪み補正による2段階全方位画像合成
- Authors: Atsuya Nakata, Takao Yamanaka,
- Abstract要約: 本稿では,新しい全方向画像合成法である2S-ODIS(Two-Stage Omni-Directional Image Synthesis)を提案する。
その結果、2S-ODISはOmniDreamerで14日間、OmniDreamerで4日間の短縮を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-directional images have been increasingly used in various applications, including virtual reality and SNS (Social Networking Services). However, their availability is comparatively limited in contrast to normal field of view (NFoV) images, since specialized cameras are required to take omni-directional images. Consequently, several methods have been proposed based on generative adversarial networks (GAN) to synthesize omni-directional images, but these approaches have shown difficulties in training of the models, due to instability and/or significant time consumption in the training. To address these problems, this paper proposes a novel omni-directional image synthesis method, 2S-ODIS (Two-Stage Omni-Directional Image Synthesis), which generated high-quality omni-directional images but drastically reduced the training time. This was realized by utilizing the VQGAN (Vector Quantized GAN) model pre-trained on a large-scale NFoV image database such as ImageNet without fine-tuning. Since this pre-trained model does not represent distortions of omni-directional images in the equi-rectangular projection (ERP), it cannot be applied directly to the omni-directional image synthesis in ERP. Therefore, two-stage structure was adopted to first create a global coarse image in ERP and then refine the image by integrating multiple local NFoV images in the higher resolution to compensate the distortions in ERP, both of which are based on the pre-trained VQGAN model. As a result, the proposed method, 2S-ODIS, achieved the reduction of the training time from 14 days in OmniDreamer to four days in higher image quality.
- Abstract(参考訳): バーチャルリアリティやSNS(Social Networking Services)など,さまざまなアプリケーションにおいて,Omni方向の画像の利用が増加している。
しかし、全方位撮影には特殊なカメラが必要であるため、通常の視野(NFoV)画像とは対照的に可利用性は比較的限られている。
その結果,全方位画像の合成にはGAN(Generative Adversarial Network)に基づくいくつかの手法が提案されている。
そこで本研究では,高品質な全方位画像を生成するが,トレーニング時間を劇的に短縮する2S-ODIS(Two-Stage Omni-Directional Image Synthesis)を提案する。
VQGAN(Vector Quantized GAN)モデルをImageNetなどの大規模NFoV画像データベース上で,微調整なしで事前学習することで実現した。
この事前学習モデルは、等角射影(ERP)における全方向像の歪みを表現しないので、ERPの全方向画像合成に直接適用することはできない。
そのため、まずERPで大域的な粗い画像を作成し、次に複数の局所NFoV画像を高分解能に統合することにより、ERPの歪みを補償する2段階構造を採用し、それぞれが事前訓練されたVQGANモデルに基づいている。
その結果,提案手法である2S-ODISは,OmniDreamerの14日間から高画質の4日間までのトレーニング時間を短縮した。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model [6.83367289911244]
ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。
ODIの既存の超解像法のほとんどはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性をもたらす。
論文 参考訳(メタデータ) (2024-04-16T06:39:37Z) - TAOTF: A Two-stage Approximately Orthogonal Training Framework in Deep
Neural Networks [8.663152066918821]
本稿では,ノイズの多いデータシナリオにおいて,この問題を解決するための2段階のほぼ直交学習フレームワーク(TAOTF)を提案する。
提案手法は,本手法が既存の手法よりも安定かつ優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-11-25T05:22:43Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Unsupervised Single Image Super-resolution Under Complex Noise [60.566471567837574]
本稿では,一般のSISRタスクを未知の劣化で扱うためのモデルベースunsupervised SISR法を提案する。
提案手法は, より小さなモデル (0.34M vs. 2.40M) だけでなく, より高速な技術 (SotA) 法 (約1dB PSNR) の現況を明らかに超えることができる。
論文 参考訳(メタデータ) (2021-07-02T11:55:40Z) - Learning a Model-Driven Variational Network for Deformable Image
Registration [89.9830129923847]
VR-Netは、教師なしの変形可能な画像登録のための新しいカスケード可変ネットワークである。
登録精度において最先端のディープラーニング手法よりも優れています。
ディープラーニングの高速推論速度と変分モデルのデータ効率を維持している。
論文 参考訳(メタデータ) (2021-05-25T21:37:37Z) - Nonlocal Adaptive Direction-Guided Structure Tensor Total Variation For
Image Recovery [6.396288020763144]
本論文は,NLSTVの規格化期間を,指向性プリミティブを用いて促進することを目的としている。
本稿では、異方性ガウス核を用いて、後述のモデルで使われる方向特徴を推定する手法を提案する。
論文 参考訳(メタデータ) (2020-08-28T06:58:35Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - A Two-step-training Deep Learning Framework for Real-time Computational
Imaging without Physics Priors [0.0]
本稿では,物理を前提としないリアルタイムな計算画像作成のための2段階学習用DL(TST-DL)フレームワークを提案する。
まず、モデルを直接学習するために、単一の完全接続層(FCL)をトレーニングする。
そして、このFCLを未訓練のU-Netアーキテクチャで固定固定し、第2ステップのトレーニングを行い、出力画像の忠実性を改善する。
論文 参考訳(メタデータ) (2020-01-10T15:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。