論文の概要: TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction
- arxiv url: http://arxiv.org/abs/2603.00697v1
- Date: Sat, 28 Feb 2026 15:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.327661
- Title: TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction
- Title(参考訳): TokenSplat:フィードフォワードフリーコンストラクションのためのToken-aligned 3D Gaussian Splatting
- Authors: Yihui Li, Chengxin Lv, Zichen Tang, Hongyu Yang, Di Huang,
- Abstract要約: TokenSplatは3次元ガウス復元とカメラポーズ推定のためのフィードフォワードフレームワークである。
TokenSplatのコアとなるのは、Token-aligned Gaussian Predictionモジュールだ。
長期のクロスビュー推論を可能にするために、マルチスケールのコンテキスト特徴を集約する。
- 参考スコア(独自算出の注目度): 45.41545304485825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TokenSplat, a feed-forward framework for joint 3D Gaussian reconstruction and camera pose estimation from unposed multi-view images. At its core, TokenSplat introduces a Token-aligned Gaussian Prediction module that aligns semantically corresponding information across views directly in the feature space. Guided by coarse token positions and fusion confidence, it aggregates multi-scale contextual features to enable long-range cross-view reasoning and reduce redundancy from overlapping Gaussians. To further enhance pose robustness and disentangle viewpoint cues from scene semantics, TokenSplat employs learnable camera tokens and an Asymmetric Dual-Flow Decoder (ADF-Decoder) that enforces directionally constrained communication between camera and image tokens. This maintains clean factorization within a feed-forward architecture, enabling coherent reconstruction and stable pose estimation without iterative refinement. Extensive experiments demonstrate that TokenSplat achieves higher reconstruction fidelity and novel-view synthesis quality in pose-free settings, and significantly improves pose estimation accuracy compared to prior pose-free methods. Project page: https://kidleyh.github.io/tokensplat/.
- Abstract(参考訳): 提案するTokenSplatは3次元ガウス再構成とカメラポーズ推定のためのフィードフォワードフレームワークである。
中心となるTokenSplatでは、機能空間内で直接ビュー間で意味的に対応する情報を整列するToken-aligned Gaussian Predictionモジュールが導入されている。
粗いトークン位置と融合信頼によってガイドされ、多スケールのコンテキスト特徴を集約し、長距離のクロスビュー推論を可能にし、重複するガウスの冗長性を減少させる。
TokenSplatは、シーンセマンティクスからのロバスト性やアンタングルな視点の手がかりをさらに強化するため、学習可能なカメラトークンと、カメラと画像トークン間の方向制約のある通信を強制する非対称デュアルフローデコーダ(ADF-Decoder)を採用している。
これにより、フィードフォワードアーキテクチャ内でクリーンな分解を維持でき、コヒーレントな再構成と安定なポーズ推定を反復的な洗練なしに実現できる。
TokenSplatはポーズフリー環境での再現精度と新規ビュー合成品質を向上し,ポーズフリー手法と比較してポーズ推定精度を著しく向上することを示した。
プロジェクトページ: https://kidleyh.github.io/tokensplat/。
関連論文リスト
- AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [68.94737256959661]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文 参考訳(メタデータ) (2025-05-29T17:49:56Z) - VicaSplat: A Single Run is All You Need for 3D Gaussian Splatting and Camera Estimation from Unposed Video Frames [8.746291192336056]
本稿では,3次元ガウス復元とカメラポーズ推定のための新しいフレームワークであるVicaSplatを提案する。
我々の手法のコアは、トランスフォーマーベースの新しいネットワークアーキテクチャにある。
論文 参考訳(メタデータ) (2025-03-13T11:56:05Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。