論文の概要: OmniZoomer: Learning to Move and Zoom in on Sphere at High-Resolution
- arxiv url: http://arxiv.org/abs/2308.08114v1
- Date: Wed, 16 Aug 2023 02:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:02:57.353697
- Title: OmniZoomer: Learning to Move and Zoom in on Sphere at High-Resolution
- Title(参考訳): OmniZoomer: 高解像度で球体を移動してズームインする学習
- Authors: Zidong Cao, Hao Ai, Yan-Pei Cao, Ying Shan, Xiaohu Qie, Lin Wang
- Abstract要約: 我々は,ODIの移動とズームのために,M"obius変換をネットワークに組み込む,新たなディープラーニングベースのアプローチを提案する。
異なる条件下で様々な変換された特徴写像を学習することにより、ネットワークは増大するエッジ曲率を扱うように拡張される。
実験により,本手法は,興味の対象物への移動・ズームインの柔軟性を活かした,高品質なODIを生成可能であることが示された。
- 参考スコア(独自算出の注目度): 43.326490968187684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnidirectional images (ODIs) have become increasingly popular, as their
large field-of-view (FoV) can offer viewers the chance to freely choose the
view directions in immersive environments such as virtual reality. The M\"obius
transformation is typically employed to further provide the opportunity for
movement and zoom on ODIs, but applying it to the image level often results in
blurry effect and aliasing problem. In this paper, we propose a novel deep
learning-based approach, called \textbf{OmniZoomer}, to incorporate the
M\"obius transformation into the network for movement and zoom on ODIs. By
learning various transformed feature maps under different conditions, the
network is enhanced to handle the increasing edge curvatures, which alleviates
the blurry effect. Moreover, to address the aliasing problem, we propose two
key components. Firstly, to compensate for the lack of pixels for describing
curves, we enhance the feature maps in the high-resolution (HR) space and
calculate the transformed index map with a spatial index generation module.
Secondly, considering that ODIs are inherently represented in the spherical
space, we propose a spherical resampling module that combines the index map and
HR feature maps to transform the feature maps for better spherical correlation.
The transformed feature maps are decoded to output a zoomed ODI. Experiments
show that our method can produce HR and high-quality ODIs with the flexibility
to move and zoom in to the object of interest. Project page is available at
http://vlislab22.github.io/OmniZoomer/.
- Abstract(参考訳): 全方位画像(odis)が人気を博し、その大きな視野(fov)は、仮想現実のような没入環境において、視聴者が自由に視点の方向を選択する機会を提供する。
M\"obius変換は通常、ODIの移動とズームの機会を提供するために使用されるが、画像レベルにそれを適用すると、しばしばぼやけた効果やエイリアス問題が発生する。
本稿では,ODIの移動とズームのためのネットワークにM\"obius変換を組み込むための,新しい深層学習型アプローチである「textbf{OmniZoomer}」を提案する。
異なる条件下で様々な変換された特徴マップを学習することで、ネットワークは増大するエッジ曲率を扱うように拡張され、ぼやけた効果を緩和する。
さらに,エイリアシング問題に対処するために,二つの重要な要素を提案する。
まず,曲線を記述するための画素の欠如を補うため,高分解能(HR)空間における特徴写像を拡張し,空間インデックス生成モジュールを用いて変換インデックスマップを算出する。
第二に、ODIが本質的に球面空間で表現されていることを考慮し、より優れた球面相関を求めるために、インデックスマップとHR特徴写像を組み合わせた球面再サンプリングモジュールを提案する。
変換された特徴写像をデコードしてズームしたODIを出力する。
実験により, 提案手法は, 対象物への移動やズームインを柔軟に行うことで, hrおよび高品質のodisを生成できることを示した。
プロジェクトページはhttp://vlislab22.github.io/OmniZoomer/で公開されている。
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Geometric Distortion Guided Transformer for Omnidirectional Image Super-Resolution [26.819508321968108]
GDGT-OSR (Geometric Distortion Guided Transformer for Omdirectional Image Super-Resolution) について紹介する。
具体的には、変形可能な自己アテンションと統合された歪変調矩形ウィンドウ自己アテンション機構を提案し、歪みをよりよく知覚する。
新たなGDGT-OSRは既存の文献の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-16T09:38:33Z) - Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion [35.88039888482076]
本稿では,ビデオとして処理可能な画像のバリエーションを生成するために,最初の微分可能拡張探索法(DAS)を提案する。
DASは非常に高速で柔軟性があり、GPUの1日以内で非常に大きな検索スペースを検索できる。
DASを利用して、タスク依存変換を選択することにより、空間受容場の再構成を誘導する。
論文 参考訳(メタデータ) (2024-03-22T13:27:57Z) - T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image [84.08705684778666]
本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
論文 参考訳(メタデータ) (2024-03-20T15:14:22Z) - Learning to Zoom and Unzoom [49.587516562644836]
入力画像にズームインし、空間的特徴を計算し、次に「アンゾム」して任意の変形を反転させる。
さまざまなタスクやデータセットを評価することで、この汎用性を実証する。
論文 参考訳(メタデータ) (2023-03-27T17:03:30Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Learning Continuous Depth Representation via Geometric Spatial
Aggregator [47.1698365486215]
深度マップ超解法(DSR)のための新しい連続深度表現法を提案する。
この表現の中心は我々の提案した幾何空間アグリゲータ(GSA)であり、これは任意にアップサンプリングされたターゲットグリッドにより変調された距離場を利用する。
また、局所座標間の関数マッピングを構築するための原理的な方法を持つGeoDSRというトランスフォーマースタイルのバックボーンも提示する。
論文 参考訳(メタデータ) (2022-12-07T07:48:23Z) - SDAN: Squared Deformable Alignment Network for Learning Misaligned
Optical Zoom [5.202871995038932]
ディープニューラルネットワーク(DNN)に基づく超解像アルゴリズムは、生成した画像の品質を大幅に改善した。
これらのアルゴリズムはしばしば、現実世界の超解像問題を扱う際に重要な成果物をもたらす。
この問題に対処するために、Squared Deformable Alignment Network (SDAN) を紹介します。
論文 参考訳(メタデータ) (2021-04-02T01:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。