論文の概要: Learning Neural Representation of Camera Pose with Matrix Representation
of Pose Shift via View Synthesis
- arxiv url: http://arxiv.org/abs/2104.01508v1
- Date: Sun, 4 Apr 2021 00:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:38:11.785874
- Title: Learning Neural Representation of Camera Pose with Matrix Representation
of Pose Shift via View Synthesis
- Title(参考訳): ビュー合成によるポーズシフトのマトリックス表現によるカメラポーズの学習ニューラルネットワーク表現
- Authors: Yaxuan Zhu, Ruiqi Gao, Siyuan Huang, Song-chun Zhu, Yingnian Wu
- Abstract要約: カメラポーズを効果的に表現する方法は、3Dコンピュータビジョンの重要な問題です。
カメラポーズと3Dシーンのニューラル表現を学習するためのアプローチを提案する。
合成および実データに対する広範な実験を行う。
- 参考スコア(独自算出の注目度): 105.37072293076767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to effectively represent camera pose is an essential problem in 3D
computer vision, especially in tasks such as camera pose regression and novel
view synthesis. Traditionally, 3D position of the camera is represented by
Cartesian coordinate and the orientation is represented by Euler angle or
quaternions. These representations are manually designed, which may not be the
most effective representation for downstream tasks. In this work, we propose an
approach to learn neural representations of camera poses and 3D scenes, coupled
with neural representations of local camera movements. Specifically, the camera
pose and 3D scene are represented as vectors and the local camera movement is
represented as a matrix operating on the vector of the camera pose. We
demonstrate that the camera movement can further be parametrized by a matrix
Lie algebra that underlies a rotation system in the neural space. The vector
representations are then concatenated and generate the posed 2D image through a
decoder network. The model is learned from only posed 2D images and
corresponding camera poses, without access to depths or shapes. We conduct
extensive experiments on synthetic and real datasets. The results show that
compared with other camera pose representations, our learned representation is
more robust to noise in novel view synthesis and more effective in camera pose
regression.
- Abstract(参考訳): カメラポーズを効果的に表現する方法は、3Dコンピュータビジョン、特にカメラポーズ回帰や新しいビュー合成といったタスクにおいて重要な問題である。
伝統的に、カメラの3次元位置はデカルト座標で表され、向きはオイラー角または四元数で表される。
これらの表現は手動で設計されており、下流タスクの最も効果的な表現ではないかもしれない。
本研究では,カメラポーズと3dシーンのニューラル表現と,局所カメラ動作のニューラル表現を併用して学習する手法を提案する。
具体的には、カメラポーズと3Dシーンをベクトルとして、ローカルカメラの動きをカメラポーズのベクトル上で動作するマトリックスとして表現する。
カメラの動きは、神経空間の回転系を基底とする行列リー代数によってさらにパラメータ化できることを実証する。
ベクトル表現は連結され、デコーダネットワークを介してポーズされた2d画像を生成する。
モデルは、深度や形状にアクセスせずに、2d画像と対応するカメラポーズのみから学習される。
合成および実データに対する広範な実験を行う。
その結果、他のカメラポーズ表現と比較して、学習された表現は、新しいビュー合成においてノイズに対してより堅牢であり、カメラポーズ回帰においてより効果的であることがわかった。
関連論文リスト
- COLMAP-Free 3D Gaussian Splatting [93.69157280273856]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Inverting the Imaging Process by Learning an Implicit Camera Model [73.81635386829846]
本稿では,ディープニューラルネットワークとしてのカメラの物理画像処理を表現した,新しい暗黙カメラモデルを提案する。
本稿では,この暗黙カメラモデルが2つの逆撮像タスクに与える影響を実演する。
論文 参考訳(メタデータ) (2023-04-25T11:55:03Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View
Synthesis [6.103988053817792]
新規ビュー合成(NVS)は、一般的な設定によって異なるアプローチで取り組むことができる。
最も難しいシナリオは、私たちがこの仕事で立っているもので、別の視点から新しいものを生成するためのユニークなソースイメージのみを考えます。
本稿では2次元特徴像として視点変換を符号化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:54:20Z) - GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed
Silhouettes [48.642181362172906]
対象物の粗い3次元表現を多視点2次元マスク監視から学習するアルゴリズムを提案する。
既存のボクセルを用いた物体再構成法とは対照的に,提案手法は生成した形状やポーズを表現することを学ぶ。
リアル照明を用いた合成データセットの結果を示し、対話的なポーズによるオブジェクト挿入を実証する。
論文 参考訳(メタデータ) (2021-06-24T17:47:58Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。