論文の概要: VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames
- arxiv url: http://arxiv.org/abs/2503.10286v1
- Date: Thu, 13 Mar 2025 11:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:48.005678
- Title: VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames
- Title(参考訳): VicaSplat:3Dガウス撮影とビデオフレームからのカメラ推定に必要なのは1回だけ
- Authors: Zhiqi Li, Chengrui Dong, Yiming Chen, Zhangchi Huang, Peidong Liu,
- Abstract要約: 本稿では,3次元ガウス復元とカメラポーズ推定のための新しいフレームワークであるVicaSplatを提案する。
我々の手法のコアは、トランスフォーマーベースの新しいネットワークアーキテクチャにある。
- 参考スコア(独自算出の注目度): 8.746291192336056
- License:
- Abstract: We present VicaSplat, a novel framework for joint 3D Gaussians reconstruction and camera pose estimation from a sequence of unposed video frames, which is a critical yet underexplored task in real-world 3D applications. The core of our method lies in a novel transformer-based network architecture. In particular, our model starts with an image encoder that maps each image to a list of visual tokens. All visual tokens are concatenated with additional inserted learnable camera tokens. The obtained tokens then fully communicate with each other within a tailored transformer decoder. The camera tokens causally aggregate features from visual tokens of different views, and further modulate them frame-wisely to inject view-dependent features. 3D Gaussian splats and camera pose parameters can then be estimated via different prediction heads. Experiments show that VicaSplat surpasses baseline methods for multi-view inputs, and achieves comparable performance to prior two-view approaches. Remarkably, VicaSplat also demonstrates exceptional cross-dataset generalization capability on the ScanNet benchmark, achieving superior performance without any fine-tuning. Project page: https://lizhiqi49.github.io/VicaSplat.
- Abstract(参考訳): 実世界の3Dアプリケーションにおいて重要で未探索の課題であるビデオフレームの列から3Dガウス復元とカメラポーズ推定のための新しいフレームワークであるVicaSplatを提案する。
我々の手法のコアは、トランスフォーマーベースの新しいネットワークアーキテクチャにある。
特に、私たちのモデルは、各画像を視覚トークンのリストにマッピングするイメージエンコーダから始まります。
すべての視覚トークンは、追加で学習可能なカメラトークンと連結される。
得られたトークンは、調整されたトランスフォーマーデコーダ内で相互に完全に通信する。
カメラトークンは、異なるビューの視覚トークンから機能を因果的に集約し、フレームワイズによってビュー依存の機能を注入する。
3Dガウスのスプレートとカメラのポーズパラメータは、異なる予測ヘッドによって推定できる。
実験により、ViaSplatはマルチビュー入力のベースラインメソッドを超越し、以前の2ビューアプローチに匹敵する性能を実現することが示された。
注目すべきは、VicaSplatはScanNetベンチマークで例外的なクロスデータセットの一般化機能を示し、微調整なしで優れたパフォーマンスを実現していることだ。
プロジェクトページ: https://lizhiqi49.github.io/VicaSplat
関連論文リスト
- OmniSplat: Taming Feed-Forward 3D Gaussian Splatting for Omnidirectional Images with Editable Capabilities [44.255563018074575]
OmniSplatは、全方位画像から高速なフィードフォワード3DGS生成のための先駆的な研究である。
我々は、視線画像に基づいて訓練された既存のフィードフォワードネットワークよりも高い再構成精度を示す。
論文 参考訳(メタデータ) (2024-12-21T12:33:08Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - Robust 2D/3D Vehicle Parsing in CVIS [54.825777404511605]
本研究では,協調型車両インフラシステム(CVIS)の一環として,異なるカメラビューの車両を堅牢に検出・認識する新しいアプローチを提案する。
提案方式は任意のカメラビュー向けに設計されており,本質的パラメータや外部的パラメータを仮定しない。
実際に,本手法は2次元検出,インスタンスセグメンテーション,6-DoFのポーズ推定においてSOTA法より優れている。
論文 参考訳(メタデータ) (2021-03-11T03:35:05Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。