論文の概要: Equivariant Single View Pose Prediction Via Induced and Restricted
Representations
- arxiv url: http://arxiv.org/abs/2307.03704v1
- Date: Fri, 7 Jul 2023 16:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 11:50:40.788164
- Title: Equivariant Single View Pose Prediction Via Induced and Restricted
Representations
- Title(参考訳): 誘導表現と制限表現による等変単視点ポーズ予測
- Authors: Owen Howell, David Klee, Ondrej Biza, Linfeng Zhao, and Robin Walters
- Abstract要約: 2次元画像から3次元世界を学ぶことは、コンピュータビジョンの基本的な問題である。
このようなタスクのための理想的なニューラルネットワークアーキテクチャは、オブジェクトが3次元で回転して変換できるという事実を活用するだろう。
二次元画像から世界の3次元表現を学習するアルゴリズムは,幾何的整合性を満たす必要があることを示す。
- 参考スコア(独自算出の注目度): 3.8214695776749013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning about the three-dimensional world from two-dimensional images is a
fundamental problem in computer vision. An ideal neural network architecture
for such tasks would leverage the fact that objects can be rotated and
translated in three dimensions to make predictions about novel images. However,
imposing SO(3)-equivariance on two-dimensional inputs is difficult because the
group of three-dimensional rotations does not have a natural action on the
two-dimensional plane. Specifically, it is possible that an element of SO(3)
will rotate an image out of plane. We show that an algorithm that learns a
three-dimensional representation of the world from two dimensional images must
satisfy certain geometric consistency properties which we formulate as
SO(2)-equivariance constraints. We use the induced and restricted
representations of SO(2) on SO(3) to construct and classify architectures which
satisfy these geometric consistency constraints. We prove that any architecture
which respects said consistency constraints can be realized as an instance of
our construction. We show that three previously proposed neural architectures
for 3D pose prediction are special cases of our construction. We propose a new
algorithm that is a learnable generalization of previously considered methods.
We test our architecture on three pose predictions task and achieve SOTA
results on both the PASCAL3D+ and SYMSOL pose estimation tasks.
- Abstract(参考訳): 2次元画像から3次元世界を学ぶことは、コンピュータビジョンの基本的な問題である。
このようなタスクのための理想的なニューラルネットワークアーキテクチャは、オブジェクトを回転させて3次元に変換することで、新しいイメージを予測できるという事実を活用するだろう。
しかし、3次元回転の群は2次元平面に自然な作用を持たないので、SO(3)-等式を2次元入力に課すことは困難である。
具体的には、so(3) の要素が平面から像を回転させることが可能である。
2次元画像から世界の3次元表現を学習するアルゴリズムは、so(2)-同分散制約として定式化した幾何的一貫性特性を満たさなければならない。
我々はSO(3)上のSO(2)の誘導および制限された表現を用いて、これらの幾何学的整合性制約を満たすアーキテクチャの構築と分類を行う。
一貫性の制約を尊重するアーキテクチャは、私たちの構築のインスタンスとして実現可能であることを証明します。
3次元ポーズ予測のための先述した3つのニューラルアーキテクチャが,我々の構築の特別なケースであることを示す。
従来検討されていた手法の学習可能な一般化である新しいアルゴリズムを提案する。
我々は3つのポーズ予測タスクでアーキテクチャをテストし、PASCAL3D+とSYMSOLの両方のポーズ推定タスクでSOTA結果を達成する。
関連論文リスト
- GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Doppelgangers: Learning to Disambiguate Images of Similar Structures [76.61267007774089]
幻像マッチングは、人間が区別することは困難であり、3D再構成アルゴリズムに誤った結果をもたらす可能性がある。
本稿では,視覚的曖昧化に対する学習に基づくアプローチを提案し,イメージペア上でのバイナリ分類タスクとして定式化する。
本手法は, 難易度の高い画像の一致を識別し, SfMパイプラインに統合することにより, 正確な3次元再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-05T17:50:36Z) - LIST: Learning Implicitly from Spatial Transformers for Single-View 3D
Reconstruction [5.107705550575662]
Listは、局所的およびグローバルな画像特徴を活用して、単一の画像から3Dオブジェクトの幾何学的および位相的構造を再構築する、新しいニューラルネットワークである。
合成画像と実世界の画像から3Dオブジェクトを再構成する際のモデルの有用性を示す。
論文 参考訳(メタデータ) (2023-07-23T01:01:27Z) - Unsupervised Style-based Explicit 3D Face Reconstruction from Single
Image [10.1205208477163]
本研究では,Unsupervised 2D to Explicit 3D Style Transferを解くための一般的な逆学習フレームワークを提案する。
具体的には、Wuらによる教師なし明示的な3D再構成ネットワークと、StarGAN-v2というジェネレーティブ・アドバイザリ・ネットワーク(GAN)の2つのアーキテクチャを統合する。
提案手法は,DepthNetを3次元再構成で,Pix2NeRFを条件付き転送で,よく確立されたソリューションよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T21:25:06Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - 3D Magic Mirror: Clothing Reconstruction from a Single Image via a
Causal Perspective [96.65476492200648]
本研究は, 自己監督型3D衣料の再構築手法について検討することを目的とする。
1枚の2D画像から人間の衣服の形状やテクスチャを復元する。
論文 参考訳(メタデータ) (2022-04-27T17:46:55Z) - Neural Convolutional Surfaces [59.172308741945336]
この研究は、大域的、粗い構造から、微細で局所的で、おそらく繰り返される幾何学を歪める形状の表現に関係している。
このアプローチは, 最先端技術よりも優れたニューラル形状圧縮を実現するとともに, 形状詳細の操作と伝達を可能にする。
論文 参考訳(メタデータ) (2022-04-05T15:40:11Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - Single Image 3D Object Estimation with Primitive Graph Networks [30.315124364682994]
1つの画像から3Dオブジェクトを再構成することは、視覚的シーン理解の基本的な問題である。
プリミティブに基づく3次元オブジェクト推定のための2段階グラフネットワークを提案する。
ステージワイズ戦略でグラフニューラルネットワーク全体をトレーニングし、Pix3D、ModelNet、NYU Depth V2の3つのベンチマークで評価する。
論文 参考訳(メタデータ) (2021-09-09T10:28:37Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。