論文の概要: TokenGS: Decoupling 3D Gaussian Prediction from Pixels with Learnable Tokens
- arxiv url: http://arxiv.org/abs/2604.15239v1
- Date: Thu, 16 Apr 2026 17:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.02162
- Title: TokenGS: Decoupling 3D Gaussian Prediction from Pixels with Learnable Tokens
- Title(参考訳): TokenGS:3Dガウス予測を学習可能なトークンでPixelから切り離す
- Authors: Jiawei Ren, Michal Jan Tyszkiewicz, Jiahui Huang, Zan Gojcic,
- Abstract要約: 我々は、カメラ線に沿った奥行きが最適であるとして、ガウスを退避させる一般的な実践は、準最適であると主張する。
本稿では,自己教師付きレンダリング損失のみを用いて,3次元平均座標を直接回帰する手法を提案する。
提案手法であるTokenGSは、ノイズやマルチビューの不整合に対処するための堅牢性の向上を実証する。
- 参考スコア(独自算出の注目度): 25.44390249542703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we revisit several key design choices of modern Transformer-based approaches for feed-forward 3D Gaussian Splatting (3DGS) prediction. We argue that the common practice of regressing Gaussian means as depths along camera rays is suboptimal, and instead propose to directly regress 3D mean coordinates using only a self-supervised rendering loss. This formulation allows us to move from the standard encoder-only design to an encoder-decoder architecture with learnable Gaussian tokens, thereby unbinding the number of predicted primitives from input image resolution and number of views. Our resulting method, TokenGS, demonstrates improved robustness to pose noise and multiview inconsistencies, while naturally supporting efficient test-time optimization in token space without degrading learned priors. TokenGS achieves state-of-the-art feed-forward reconstruction performance on both static and dynamic scenes, producing more regularized geometry and more balanced 3DGS distribution, while seamlessly recovering emergent scene attributes such as static-dynamic decomposition and scene flow.
- Abstract(参考訳): 本研究では、フィードフォワード3Dガウススプラッティング(3DGS)予測のための、トランスフォーマーに基づく現代的なアプローチの重要な設計選択について再検討する。
我々は、カメラ線に沿った奥行きが最適であるとして、ガウス平均を回帰する一般的な慣習を論じ、代わりに、自己教師付きレンダリング損失のみを用いて3D平均座標を直接回帰することを提案する。
この定式化により、標準的なエンコーダのみの設計から学習可能なガウストークンを持つエンコーダデコーダアーキテクチャへ移行し、入力画像の解像度とビュー数から予測プリミティブの数を解放することができる。
提案手法であるTokenGSは,学習前処理を劣化させることなく,トークン空間における効率的なテスト時間最適化を自然にサポートしながら,ノイズやマルチビューの不整合を生じさせるロバスト性の向上を実証する。
TokenGSは静的・動的両方のシーンで最先端のフィードフォワード再構成性能を実現し、静的・動的分解やシーンフローなどの創発的なシーン特性をシームレスに回復しながら、より規則化された幾何学とバランスの取れた3DGS分布を生成する。
関連論文リスト
- CSGaussian: Progressive Rate-Distortion Compression and Segmentation for 3D Gaussian Splatting [57.73006852239138]
本稿では,3次元ガウススプラッティングの速度歪み最適化圧縮とセグメンテーションのための最初の統一フレームワークを提案する(3DGS)。
速度歪みに最適化された3DGS圧縮の最近の進歩に触発されたこの研究は、セマンティックラーニングを圧縮パイプラインに統合し、デコーダ側アプリケーションをサポートする。
提案方式は暗黙的ニューラル表現に基づくハイパープライアを特徴とし,色属性と意味属性の両方の効率的なエントロピー符号化を実現する。
論文 参考訳(メタデータ) (2026-01-19T08:21:45Z) - Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - EcoSplat: Efficiency-controllable Feed-forward 3D Gaussian Splatting from Multi-view Images [39.67757218876105]
EcoSplatはフィードフォワード3DGSフレームワークで、任意のターゲットプリミティブカウントの3D表現を推論時に適応的に予測する。
EcoSplatは、厳密なプリミティブな制約の下で、堅牢で最先端のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-12-21T11:12:48Z) - Off The Grid: Detection of Primitives for Feed-Forward 3D Gaussian Splatting [33.7339252839354]
本稿では,3次元ガウスプリミティブをサブピクセルレベルで検出するフィードフォワードアーキテクチャを提案する。
キーポイント検出にインスパイアされたデコーダは、プリミティブをイメージパッチに分散することを学ぶ。
得られたポーズフリーモデルは数秒でシーンを生成し、フィードフォワードモデルのための最先端の新規ビュー合成を実現する。
論文 参考訳(メタデータ) (2025-12-17T14:59:21Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Effective Rank Analysis and Regularization for Enhanced 3D Gaussian Splatting [33.01987451251659]
3D Gaussian Splatting(3DGS)は、高品質な3D再構成によるリアルタイムレンダリングが可能な有望な技術として登場した。
その可能性にもかかわらず、3DGSは針状アーティファクト、準最適ジオメトリー、不正確な正常といった課題に遭遇する。
正規化として有効ランクを導入し、ガウスの構造を制約する。
論文 参考訳(メタデータ) (2024-06-17T15:51:59Z) - CoherentGS: Sparse Novel View Synthesis with Coherent 3D Gaussians [18.42203035154126]
2次元画像空間で制御できる構造付きガウス表現を導入する。
次に、ガウス群、特にその位置を制約し、最適化中に独立に動くのを防ぐ。
我々は,様々な場面における最先端のスパースビュー NeRF ベースのアプローチと比較して,顕著な改善を示した。
論文 参考訳(メタデータ) (2024-03-28T15:27:13Z) - GaussianPro: 3D Gaussian Splatting with Progressive Propagation [49.918797726059545]
3DGSはStructure-from-Motion (SfM)技術によって生成されるポイントクラウドに大きく依存している。
本稿では, 3次元ガウスの密度化を導くために, プログレッシブ・プログレッシブ・プログレッシブ・ストラテジーを適用した新しい手法を提案する。
提案手法はデータセット上の3DGSを大幅に上回り,PSNRでは1.15dBの改善が見られた。
論文 参考訳(メタデータ) (2024-02-22T16:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。