論文の概要: tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2602.20160v1
- Date: Mon, 23 Feb 2026 18:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.972176
- Title: tttLRM: Test-Time Training for Long Context and Autoregressive 3D Reconstruction
- Title(参考訳): tttLRM : 長期的・自己回帰的3次元再構成のためのテストタイムトレーニング
- Authors: Chen Wang, Hao Tan, Wang Yifan, Zhiqin Chen, Yuheng Liu, Kalyan Sunkavalli, Sai Bi, Lingjie Liu, Yiwei Hu,
- Abstract要約: tttLRMは、テストタイムトレーニング層を利用する新しい大型3D再構成モデルである。
本フレームワークは,TTT層の高速な重み付けに複数の画像観測を効率よく圧縮する。
オンライン学習モデルの変種は,ストリーミング観測による進行的な3次元再構成と改善を支援する。
- 参考スコア(独自算出の注目度): 47.43504457409347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose tttLRM, a novel large 3D reconstruction model that leverages a Test-Time Training (TTT) layer to enable long-context, autoregressive 3D reconstruction with linear computational complexity, further scaling the model's capability. Our framework efficiently compresses multiple image observations into the fast weights of the TTT layer, forming an implicit 3D representation in the latent space that can be decoded into various explicit formats, such as Gaussian Splats (GS) for downstream applications. The online learning variant of our model supports progressive 3D reconstruction and refinement from streaming observations. We demonstrate that pretraining on novel view synthesis tasks effectively transfers to explicit 3D modeling, resulting in improved reconstruction quality and faster convergence. Extensive experiments show that our method achieves superior performance in feedforward 3D Gaussian reconstruction compared to state-of-the-art approaches on both objects and scenes.
- Abstract(参考訳): 本稿では,TTT(Test-Time Training)層を利用した新しい大規模3次元再構成モデルであるtttLRMを提案する。
本フレームワークは,TTT層の高速な重み付けに複数の画像観測を効率よく圧縮し,下流アプリケーション用のガウススプラット(GS)など,様々な明示的なフォーマットにデコード可能な潜在空間に暗黙的な3D表現を形成する。
オンライン学習モデルの変種は,ストリーミング観測による進行的な3次元再構成と改良を支援する。
新規なビュー合成タスクの事前学習は、明示的な3次元モデリングに効果的に移行し、再構築品質を改善し、より高速なコンバージェンスを実現することを実証する。
広汎な実験により,本手法はオブジェクトとシーンの最先端アプローチと比較して,フィードフォワード3次元ガウス再構成において優れた性能を示すことが示された。
関連論文リスト
- S-MUSt3R: Sliding Multi-view 3D Reconstruction [17.018626984951823]
本研究はS-MUSt3Rを提案する。S-MUSt3Rは単分子3次元再構成のための基礎モデルの限界を拡張するシンプルで効率的なパイプラインである。
我々は,S-MUSt3Rが長いRGBシーケンス上で正常に動作し,高精度で一貫した3D再構成を実現することを示す。
論文 参考訳(メタデータ) (2026-02-04T13:07:14Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - StructGS: Adaptive Spherical Harmonics and Rendering Enhancements for Superior 3D Gaussian Splatting [5.759434800012218]
StructGS は 3D Gaussian Splatting (3DGS) を強化し、3D再構成における新規なビュー合成を改善するフレームワークである。
我々のフレームワークは計算冗長性を著しく低減し、ディテールキャプチャを強化し、低解像度入力からの高解像度レンダリングをサポートする。
論文 参考訳(メタデータ) (2025-03-09T05:39:44Z) - UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.34221167200259]
従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文 参考訳(メタデータ) (2025-01-16T08:00:17Z) - Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。
本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文 参考訳(メタデータ) (2024-12-31T21:23:08Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。