論文の概要: LVT: Large-Scale Scene Reconstruction via Local View Transformers
- arxiv url: http://arxiv.org/abs/2509.25001v1
- Date: Mon, 29 Sep 2025 16:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.127598
- Title: LVT: Large-Scale Scene Reconstruction via Local View Transformers
- Title(参考訳): LVT:ローカルビュー変換器による大規模シーン再構成
- Authors: Tooba Imtiaz, Lucy Chai, Kathryn Heal, Xuan Luo, Jungyeon Park, Jennifer Dy, John Flynn,
- Abstract要約: Local View Transformer (LVT) は大規模なシーン再構成と新しいビュー合成アーキテクチャである。
空間的近傍のビューは、遠方からのビューよりも、局所的なシーン構成に関する有用な信号を提供するという知見に触発され、我々のモデルは、各ビュー周辺のローカルなエリアで全ての情報を処理します。
我々は、このモデルを色と不透明度の両方のビュー依存性を含む3次元ガウスシーン表現にデコードする。
- 参考スコア(独自算出の注目度): 13.074828320190425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer models are proving to be a powerful tool for 3D vision and novel view synthesis. However, the standard Transformer's well-known quadratic complexity makes it difficult to scale these methods to large scenes. To address this challenge, we propose the Local View Transformer (LVT), a large-scale scene reconstruction and novel view synthesis architecture that circumvents the need for the quadratic attention operation. Motivated by the insight that spatially nearby views provide more useful signal about the local scene composition than distant views, our model processes all information in a local neighborhood around each view. To attend to tokens in nearby views, we leverage a novel positional encoding that conditions on the relative geometric transformation between the query and nearby views. We decode the output of our model into a 3D Gaussian Splat scene representation that includes both color and opacity view-dependence. Taken together, the Local View Transformer enables reconstruction of arbitrarily large, high-resolution scenes in a single forward pass. See our project page for results and interactive demos https://toobaimt.github.io/lvt/.
- Abstract(参考訳): 大規模なトランスモデルは、3Dビジョンと新しいビュー合成のための強力なツールであることが証明されている。
しかし、標準トランスフォーマーのよく知られた二次的な複雑さは、これらの手法を大きなシーンに拡張することは困難である。
この課題に対処するために,大規模なシーン再構成と新規ビュー合成アーキテクチャであるLocal View Transformer (LVT)を提案する。
空間的近傍のビューは、遠方からのビューよりも、局所的なシーン構成に関する有用な信号を提供するという知見に触発され、我々のモデルは、各ビュー周辺のローカルなエリアで全ての情報を処理します。
近傍のビューにおけるトークンに出席するために,クエリと近傍のビュー間の相対幾何学的変換条件を条件として,新しい位置符号化を利用する。
モデルの出力を3次元ガウスSplatシーン表現にデコードし、色と不透明度の両方のビュー依存性を含む。
ローカライズ・ビュー・トランスフォーマー(Local View Transformer)は、任意の大きさの高解像度のシーンを1つの前方パスで再現する。
結果とインタラクティブなデモについては、プロジェクトページを参照してください。
関連論文リスト
- Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations [48.05445941939446]
コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。
本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-25T16:18:56Z) - TransformerFusion: Monocular RGB Scene Reconstruction using Transformers [26.87200488085741]
TransformerFusionはトランスフォーマーベースの3Dシーン再構築手法である。
ネットワークは、シーン内の3D位置ごとに最も関連性の高い画像フレームに参加することを学習する。
機能は粗い方法で融合され、必要なときにのみ細かい機能を保持する。
論文 参考訳(メタデータ) (2021-07-05T18:00:11Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。