論文の概要: Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations
- arxiv url: http://arxiv.org/abs/2111.13152v2
- Date: Mon, 29 Nov 2021 09:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 12:59:28.899623
- Title: Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations
- Title(参考訳): シーン表現変換:集合相対的シーン表現によるジオメトリフリー新規ビュー合成
- Authors: Mehdi S. M. Sajjadi and Henning Meyer and Etienne Pot and Urs Bergmann
and Klaus Greff and Noha Radwan and Suhani Vora and Mario Lucic and Daniel
Duckworth and Alexey Dosovitskiy and Jakob Uszkoreit and Thomas Funkhouser
and Andrea Tagliasacchi
- Abstract要約: コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。
本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.05445941939446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A classical problem in computer vision is to infer a 3D scene representation
from few images that can be used to render novel views at interactive rates.
Previous work focuses on reconstructing pre-defined 3D representations, e.g.
textured meshes, or implicit representations, e.g. radiance fields, and often
requires input images with precise camera poses and long processing times for
each novel scene.
In this work, we propose the Scene Representation Transformer (SRT), a method
which processes posed or unposed RGB images of a new area, infers a "set-latent
scene representation", and synthesises novel views, all in a single
feed-forward pass. To calculate the scene representation, we propose a
generalization of the Vision Transformer to sets of images, enabling global
information integration, and hence 3D reasoning. An efficient decoder
transformer parameterizes the light field by attending into the scene
representation to render novel views. Learning is supervised end-to-end by
minimizing a novel-view reconstruction error.
We show that this method outperforms recent baselines in terms of PSNR and
speed on synthetic datasets, including a new dataset created for the paper.
Further, we demonstrate that SRT scales to support interactive visualization
and semantic segmentation of real-world outdoor environments using Street View
imagery.
- Abstract(参考訳): コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
以前の研究では、テクスチャメッシュのような事前定義された3d表現や、ラミアンスフィールドのような暗黙的な表現を再構築することに焦点を当てており、多くの場合、新しいシーンごとに正確なカメラポーズと長い処理時間を持つ入力画像を必要とする。
本研究では,SRT(Scene Representation Transformer)を提案する。SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズやアンポーズを処理し,"セットラテントなシーン表現"を推論し,新しいビューを合成する。
シーン表現を計算するため,視覚変換器を画像集合に一般化し,グローバルな情報統合を実現し,従って3次元推論を行う。
効率的なデコーダトランスフォーマは、シーン表現に参加して光フィールドをパラメータ化し、新しいビューを描画する。
学習は、新しいビュー再構成誤差を最小限に抑えて、エンドツーエンドで教師される。
この手法は,psnrと合成データセットの速度の点で,最近のベースラインよりも優れており,論文用に作成された新しいデータセットも含まれている。
さらに,srtがストリートビュー画像を用いた実世界の屋外環境のインタラクティブな可視化と意味セグメンテーションをサポートすることを実証する。
関連論文リスト
- ReShader: View-Dependent Highlights for Single Image View-Synthesis [5.736642774848791]
本稿では,ビュー合成過程を画素再構成と再配置の2つの独立したタスクに分割することを提案する。
再構成の過程では,1枚の画像を入力とし,新しいカメラに基づいてシェーディングを調整する。
そして、この再構成画像を既存のビュー合成法の入力として使用し、画素を移動させ、最終的な新規なビュー画像を生成する。
論文 参考訳(メタデータ) (2023-09-19T15:23:52Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Learning to Render Novel Views from Wide-Baseline Stereo Pairs [26.528667940013598]
本稿では,単一の広線ステレオ画像ペアのみを付与した新しいビュー合成手法を提案する。
スパース観測による新しいビュー合成への既存のアプローチは、誤った3次元形状の復元によって失敗する。
対象光線に対する画像特徴を組み立てるための,効率的な画像空間のエピポーラ線サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-04-17T17:40:52Z) - Neural Radiance Transfer Fields for Relightable Novel-view Synthesis
with Global Illumination [63.992213016011235]
本稿では,ニューラル計算された放射光伝達関数を学習し,新しい視点下でのシーンリライティング手法を提案する。
本手法は,1つの未知の照明条件下で,シーンの実際の画像に対してのみ監視することができる。
その結果, シーンパラメータのアンタングルの復元は, 現状よりも有意に向上していることがわかった。
論文 参考訳(メタデータ) (2022-07-27T16:07:48Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Remote Sensing Novel View Synthesis with Implicit Multiplane
Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。
リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。
任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文 参考訳(メタデータ) (2022-05-18T13:03:55Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。