論文の概要: RUST: Latent Neural Scene Representations from Unposed Imagery
- arxiv url: http://arxiv.org/abs/2211.14306v1
- Date: Fri, 25 Nov 2022 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:00:35.084706
- Title: RUST: Latent Neural Scene Representations from Unposed Imagery
- Title(参考訳): RUST:未提示画像からの潜在神経シーン表現
- Authors: Mehdi S. M. Sajjadi, Aravindh Mahendran, Thomas Kipf, Etienne Pot,
Daniel Duckworth, Mario Lucic, Klaus Greff
- Abstract要約: 2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
- 参考スコア(独自算出の注目度): 21.433079925439234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring the structure of 3D scenes from 2D observations is a fundamental
challenge in computer vision. Recently popularized approaches based on neural
scene representations have achieved tremendous impact and have been applied
across a variety of applications. One of the major remaining challenges in this
space is training a single model which can provide latent representations which
effectively generalize beyond a single scene. Scene Representation Transformer
(SRT) has shown promise in this direction, but scaling it to a larger set of
diverse scenes is challenging and necessitates accurately posed ground truth
data. To address this problem, we propose RUST (Really Unposed Scene
representation Transformer), a pose-free approach to novel view synthesis
trained on RGB images alone. Our main insight is that one can train a Pose
Encoder that peeks at the target image and learns a latent pose embedding which
is used by the decoder for view synthesis. We perform an empirical
investigation into the learned latent pose structure and show that it allows
meaningful test-time camera transformations and accurate explicit pose
readouts. Perhaps surprisingly, RUST achieves similar quality as methods which
have access to perfect camera pose, thereby unlocking the potential for
large-scale training of amortized neural scene representations.
- Abstract(参考訳): 2次元の観察から3dシーンの構造を推測することは、コンピュータビジョンにおける根本的な課題である。
近年,ニューラルシーン表現に基づくアプローチが広く普及し,様々なアプリケーションに適用されている。
この領域で残っている大きな課題の1つは、1つのシーンを超えて効果的に一般化する潜在表現を提供する単一のモデルを訓練することである。
SRT(Scene Representation Transformer)はこの方向を約束しているが、より広い範囲の多様なシーンにスケールすることは困難であり、正確な地上真実データを必要とする。
この問題に対処するために,RGB画像だけで訓練された新規ビュー合成のためのポーズレスアプローチであるRUST(Really Unposed Scene representation Transformer)を提案する。
我々の主な洞察は、ターゲット画像を覗き見し、デコーダがビュー合成に使用する潜伏ポーズの埋め込みを学習するPose Encoderを訓練できるということです。
我々は,学習された潜在ポーズ構造について経験的調査を行い,有意義なテスト時間カメラ変換と正確なポーズ読み出しを可能にすることを示す。
おそらく意外なことに、RUSTは完璧なカメラポーズにアクセスできる方法と同じような品質を実現し、それによって、償却されたニューラルシーン表現の大規模トレーニングの可能性を解き放ちます。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Real-Time Neural Character Rendering with Pose-Guided Multiplane Images [75.62730144924566]
リアルなシーンでアニマタブルなキャラクタをフォトリアリスティックな画質でレンダリングできるポーズ誘導多面体画像(MPI)合成を提案する。
我々は、移動物体の駆動信号とともに多視点画像をキャプチャするために、ポータブルカメラリグを使用します。
論文 参考訳(メタデータ) (2022-04-25T17:51:38Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - Domain Adaptation of Networks for Camera Pose Estimation: Learning
Camera Pose Estimation Without Pose Labels [8.409695277909421]
ディープラーニングの重要な批判の1つは、モデルをトレーニングするためには、大量の高価で入手困難なトレーニングデータが必要であることである。
DANCEは、ターゲットタスクのラベルにアクセスせずにモデルのトレーニングを可能にする。
ラベル付き合成画像を3Dモデルからレンダリングし、合成画像と実際の画像の間に必然的な領域ギャップを埋める。
論文 参考訳(メタデータ) (2021-11-29T17:45:38Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。