論文の概要: Spherical Transformer
- arxiv url: http://arxiv.org/abs/2202.04942v2
- Date: Fri, 11 Feb 2022 07:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 12:33:29.956512
- Title: Spherical Transformer
- Title(参考訳): 球形変圧器
- Authors: Sungmin Cho, Raehyuk Jung, Junseok Kwon
- Abstract要約: 360次元画像のための畳み込みニューラルネットワークは、平面投影によって引き起こされる歪みによって、準最適性能を誘導することができる。
変換器のアーキテクチャを利用して360度画像の分類問題を解く。
本手法では球面から画素をサンプリングすることで,誤った平面投影処理を必要としない。
- 参考スコア(独自算出の注目度): 17.403133838762447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using convolutional neural networks for 360images can induce sub-optimal
performance due to distortions entailed by a planar projection. The distortion
gets deteriorated when a rotation is applied to the 360image. Thus, many
researches based on convolutions attempt to reduce the distortions to learn
accurate representation. In contrast, we leverage the transformer architecture
to solve image classification problems for 360images. Using the proposed
transformer for 360images has two advantages. First, our method does not
require the erroneous planar projection process by sampling pixels from the
sphere surface. Second, our sampling method based on regular polyhedrons makes
low rotation equivariance errors, because specific rotations can be reduced to
permutations of faces. In experiments, we validate our network on two aspects,
as follows. First, we show that using a transformer with highly uniform
sampling methods can help reduce the distortion. Second, we demonstrate that
the transformer architecture can achieve rotation equivariance on specific
rotations. We compare our method to other state-of-the-art algorithms using the
SPH-MNIST, SPH-CIFAR, and SUN360 datasets and show that our method is
competitive with other methods.
- Abstract(参考訳): 畳み込みニューラルネットワークを360度画像に使用すると、平面投影による歪みによる副最適性能が引き起こされる。
回転を360度画像に適用すると歪みが劣化する。
このように、畳み込みに基づく多くの研究は、正確な表現を学ぶために歪みを減らすことを試みる。
対照的に、トランスフォーマーアーキテクチャを利用して360度画像の画像分類問題を解決する。
提案するトランスフォーマーを360度画像に使用すると2つの利点がある。
まず, 球面からの画素をサンプリングすることにより, 誤った平面投影処理を必要としない。
第2に、正多面体に基づくサンプリング法は、特定の回転を顔の置換に還元できるため、低回転同分散誤差となる。
実験では、以下の2つの側面でネットワークを検証した。
まず, 均一なサンプリング手法を持つ変圧器を用いることにより, 歪みを低減できることを示す。
第2に, 変圧器アーキテクチャが特定の回転の回転同値を達成できることを実証する。
我々は,SPH-MNIST,SPH-CIFAR,SUN360データセットを用いた他の最先端アルゴリズムと比較し,本手法が他の手法と競合することを示す。
関連論文リスト
- Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z) - DFR: Depth from Rotation by Uncalibrated Image Rectification with
Latitudinal Motion Assumption [6.369764116066747]
そこで我々は,非校正回転カメラのための新しい画像補正ソリューションDfRを提案する。
具体的には、カメラが一定の緯度で球上で回転するときに回転するカメラの動きをモデル化する。
2点解析解法は2つの画像の修正変換を直接計算することから導かれる。
論文 参考訳(メタデータ) (2023-07-11T09:11:22Z) - Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging [7.601695814245209]
本稿では, 連続する高速フレームを異なるマスクで変調し, 単一の計測でキャプチャする, ビデオスナップショット圧縮画像(SCI)の問題点について考察する。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(DUN)は、逆問題の解決において大きな成果を上げた。
論文 参考訳(メタデータ) (2023-06-20T06:25:48Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - Orthonormal Convolutions for the Rotation Based Iterative
Gaussianization [64.44661342486434]
本稿では、画像ガウス化を可能にする回転型反復ガウス化RBIGの拡張について詳述する。
RBIGの回転は主成分分析や独立成分分析に基づくため、画像では小さな画像パッチや孤立画素に制限されている。
emphConvolutional RBIG:この問題を緩和する拡張として,RBIGの回転が畳み込みであることを示す。
論文 参考訳(メタデータ) (2022-06-08T12:56:34Z) - Rectifying homographies for stereo vision: analytical solution for
minimal distortion [0.0]
整形化は、その後のステレオ対応問題を単純化するために用いられる。
本研究は、視点歪みを最小化する補正ホモグラフに対する閉形式解を提案する。
論文 参考訳(メタデータ) (2022-02-28T22:35:47Z) - Pseudocylindrical Convolutions for Learned Omnidirectional Image
Compression [42.15877732557837]
我々は、全方位画像圧縮のためのディープニューラルネットワークを初めて学習する試みの1つである。
パラメトリック表現に関する合理的な制約の下では、擬円筒的畳み込みは標準畳み込みによって効率的に実装できる。
実験結果から,提案手法は競合手法よりも高い速度歪み性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-12-25T12:18:32Z) - Differentiable Rendering with Perturbed Optimizers [85.66675707599782]
2Dイメージプロジェクションから3Dシーンを推論することは、コンピュータビジョンにおける中核的な問題の一つだ。
我々の研究は、よく知られた微分可能な定式化とランダムなスムーズなレンダリングの関連性を強調している。
提案手法を3次元シーン再構成に適用し,その利点を6次元ポーズ推定と3次元メッシュ再構成の課題に適用した。
論文 参考訳(メタデータ) (2021-10-18T08:56:23Z) - Extreme Rotation Estimation using Dense Correlation Volumes [73.35119461422153]
本稿では,RGB画像対の相対的な3次元回転を極端に推定する手法を提案する。
画像が重なり合わなくても、それらの幾何学的関係に関して豊富な隠れた手がかりがあるかもしれないと観察する。
本稿では,2つの入力画像間の全ての点を比較することで,そのような暗黙の手がかりを自動的に学習できるネットワーク設計を提案する。
論文 参考訳(メタデータ) (2021-04-28T02:00:04Z) - Robust 360-8PA: Redesigning The Normalized 8-point Algorithm for 360-FoV
Images [53.11097060367591]
球面投影における360-fov画像から本質行列を推定する新しい手法を提案する。
我々の正規化は、時間を大幅に上回ることなく、カメラの精度を約20%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-04-22T07:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。