論文の概要: Equivariant Light Field Convolution and Transformer
- arxiv url: http://arxiv.org/abs/2212.14871v2
- Date: Wed, 7 Jun 2023 18:00:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:01:32.238341
- Title: Equivariant Light Field Convolution and Transformer
- Title(参考訳): 等変光場畳み込み・変圧器
- Authors: Yinshuang Xu, Jiahui Lei, Kostas Daniilidis
- Abstract要約: 2D画像からの幾何学的事前の深層学習には、各画像を2D$標準フレームで表現する必要があることが多い。
3次元の光線空間において、$SE(3)$-equivariant convolution and transformerを提案することによって、フレーム変換をコーディネートする複数のビューから事前学習方法を示す。
- 参考スコア(独自算出の注目度): 40.840098156362316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction and novel view rendering can greatly benefit from geometric
priors when the input views are not sufficient in terms of coverage and
inter-view baselines. Deep learning of geometric priors from 2D images often
requires each image to be represented in a $2D$ canonical frame and the prior
to be learned in a given or learned $3D$ canonical frame. In this paper, given
only the relative poses of the cameras, we show how to learn priors from
multiple views equivariant to coordinate frame transformations by proposing an
$SE(3)$-equivariant convolution and transformer in the space of rays in 3D.
This enables the creation of a light field that remains equivariant to the
choice of coordinate frame. The light field as defined in our work, refers both
to the radiance field and the feature field defined on the ray space. We model
the ray space, the domain of the light field, as a homogeneous space of $SE(3)$
and introduce the $SE(3)$-equivariant convolution in ray space. Depending on
the output domain of the convolution, we present convolution-based
$SE(3)$-equivariant maps from ray space to ray space and to $\mathbb{R}^3$. Our
mathematical framework allows us to go beyond convolution to
$SE(3)$-equivariant attention in the ray space. We demonstrate how to tailor
and adapt the equivariant convolution and transformer in the tasks of
equivariant neural rendering and $3D$ reconstruction from multiple views. We
demonstrate $SE(3)$-equivariance by obtaining robust results in roto-translated
datasets without performing transformation augmentation.
- Abstract(参考訳): 3次元再構成と新しいビューレンダリングは、インプットビューがカバレッジとビュー間のベースラインで不十分な場合、幾何学的プリエントから大きな恩恵を受ける。
2d画像からの幾何学的事前の深層学習では、各画像は2d$の正準フレームで表現され、前者は与えられたまたは学習された3d$の正準フレームで学習される。
本稿では、カメラの相対的なポーズのみを考慮し、3次元の光空間における$SE(3)$-equivariantの畳み込みと変圧器を提案することにより、フレーム変換を座標する複数のビューから事前学習方法を示す。
これにより、座標フレームの選択に同変のままの光場を作成することができる。
我々の研究で定義された光場は、放射場と光線空間に定義された特徴場の両方を指す。
我々は、光場の領域である光線空間を$se(3)$の等質空間としてモデル化し、光線空間における$se(3)$-同変畳み込みを導入する。
畳み込みの出力領域に依存すると、畳み込みベースの$SE(3)$-equivariant map from ray space to ray space and to $\mathbb{R}^3$。
我々の数学的枠組みは、光線空間における$SE(3)$-equivariant attentionへの畳み込みを超えて行くことができる。
本稿では, 等変畳み込みとトランスフォーマーを, 等変ニューラルネットワークレンダリングと3d$再構成のタスクで調整し, 適応する方法を示す。
変換拡張を行わずにロト翻訳データセットのロバストな結果を得ることにより,$SE(3)$-equivarianceを示す。
関連論文リスト
- ODGS: 3D Scene Reconstruction from Omnidirectional Images with 3D Gaussian Splattings [48.72040500647568]
幾何的解釈を用いた全方位画像の新規化パイプラインであるODGSについて述べる。
パイプライン全体が並列化され、最適化が達成され、NeRFベースの手法よりも100倍高速になる。
その結果、ODGSは大規模な3Dシーンを再構築しても、細部を効果的に復元できることがわかった。
論文 参考訳(メタデータ) (2024-10-28T02:45:13Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [94.47518916521065]
カラーフィールドを2次元の鮮明なアグリゲーションに置き換えることを提案する。
歪み効果を回避し、簡便な編集を容易にするため、3Dの点をテクスチャルックアップのために2Dピクセルにマッピングする投影場を標準画像に補完する。
私たちの表現はAGAPと呼ばれ、再最適化を必要とせず、様々な3D編集方法(スタイル化、インタラクティブな描画、コンテンツ抽出など)をうまくサポートしています。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - MoDA: Modeling Deformable 3D Objects from Casual Videos [84.29654142118018]
神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
論文 参考訳(メタデータ) (2023-04-17T13:49:04Z) - Equivalence Between SE(3) Equivariant Networks via Steerable Kernels and
Group Convolution [90.67482899242093]
近年, 入力の回転と変換において等価な3次元データに対して, ニューラルネットワークを設計するための幅広い手法が提案されている。
両手法とその等価性を詳細に解析し,その2つの構成をマルチビュー畳み込みネットワークに関連付ける。
また、同値原理から新しいTFN非線形性を導出し、実用的なベンチマークデータセット上でテストする。
論文 参考訳(メタデータ) (2022-11-29T03:42:11Z) - EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文 参考訳(メタデータ) (2022-06-21T17:08:23Z) - Rotation Equivariant 3D Hand Mesh Generation from a Single RGB Image [1.8692254863855962]
2次元RGB画像から3次元手メッシュを生成する回転同変モデルを開発した。
これにより、手入力画像が回転されると、生成されたメッシュが対応する回転を行うことが保証される。
論文 参考訳(メタデータ) (2021-11-25T11:07:27Z) - i3dLoc: Image-to-range Cross-domain Localization Robust to Inconsistent
Environmental Conditions [9.982307144353713]
本研究では,屋内および屋外の場面における点雲マップに対して,単一カメラのローカライズ方法を提案する。
本手法は,領域間対称な位置記述子を抽出することにより,等角形状の画像を3次元射影にマッチングすることができる。
単一のトレーニングモデルにより、i3dLocはランダムな条件下で、信頼できる視覚的ローカライゼーションを示すことができる。
論文 参考訳(メタデータ) (2021-05-27T00:13:11Z) - Equivariant Point Network for 3D Point Cloud Analysis [17.689949017410836]
点雲解析のための実効的で実用的なSE(3)(3次元翻訳と回転)同変ネットワークを提案する。
まず,6次元の畳み込みを2つの分離可能な畳み込み作用素に分解する新しい枠組みであるSE(3)分離点畳み込みを提案する。
第2に,同変特徴の表現性を効果的に活用するアテンション層を導入する。
論文 参考訳(メタデータ) (2021-03-25T21:57:10Z) - Rotation-Invariant Autoencoders for Signals on Spheres [10.406659081400354]
球面画像に対する回転不変表現の教師なし学習の問題について検討する。
特に、$S2$と$SO(3)$の畳み込み層からなるオートエンコーダアーキテクチャを設計する。
複数のデータセットの実験は、クラスタリング、検索、分類アプリケーションにおける学習された表現の有用性を示す。
論文 参考訳(メタデータ) (2020-12-08T15:15:03Z) - Generalizing Spatial Transformers to Projective Geometry with
Applications to 2D/3D Registration [11.219924013808852]
微分レンダリングは、3Dシーンと対応する2D画像とを接続する技術である。
本稿では,空間変換器を射影幾何学に一般化する新しい射影空間変換器モジュールを提案する。
論文 参考訳(メタデータ) (2020-03-24T17:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。