論文の概要: TTT3R: 3D Reconstruction as Test-Time Training
- arxiv url: http://arxiv.org/abs/2509.26645v1
- Date: Tue, 30 Sep 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.249763
- Title: TTT3R: 3D Reconstruction as Test-Time Training
- Title(参考訳): TTT3R:テストタイムトレーニングとしての3次元再構成
- Authors: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen,
- Abstract要約: テストタイムトレーニングの観点から3次元再構築基盤モデルを再考する。
メモリ状態と受信した観測値のアライメントの信頼性を利用して、クローズドフォーム学習率を導出する。
この訓練のない介入はTTT3Rと呼ばれ、長さの一般化を大幅に改善する。
- 参考スコア(独自算出の注目度): 69.51086319339662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a $2\times$ improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R
- Abstract(参考訳): 現代のリカレントニューラルネットワークは、線形時間複雑性のために3次元再構成の競争的アーキテクチャとなっている。
しかし、トレーニングコンテキスト長を超えると性能が著しく低下し、限られた長さの一般化が明らかになる。
本研究では,テストタイムトレーニングの観点から3次元再構築基盤モデルを再考し,オンライン学習問題として設計をフレーミングする。
この観点から、記憶状態と入ってくる観測との整合性信頼を利用して、記憶更新のためのクローズドフォーム学習率を導出し、履歴情報の保持と新しい観測への適応のバランスをとる。
TTT3Rと呼ばれるこのトレーニング不要の介入は、数千のイメージを処理するために、わずか6GBのGPUメモリで20FPSで動作しながら、ベースラインよりもグローバルなポーズ推定を2ドル以上改善することで、長さの一般化を大幅に改善する。
https://rover-xingyu.github.io/TTT3Rで利用可能なコード
関連論文リスト
- STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - Test3R: Learning to Reconstruct 3D at Test Time [58.0912500917036]
Test3Rは驚くほどシンプルなテストタイム学習技術で、幾何学的精度を大幅に向上させる。
本手法は従来の3次元再構成法や多視点深度推定法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-16T17:56:22Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Least Redundant Gated Recurrent Neural Network [0.0]
我々は、Deep Memory Update (DMU)と呼ばれるリカレントニューラルネットワークを導入する。
これは、ラグ状態とネットワーク入力の深い変換により、前のメモリ状態を更新することに基づいている。
学習速度をモジュールのサイズに関連付けるため、トレーニングは安定して高速である。
論文 参考訳(メタデータ) (2021-05-28T20:24:00Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - Procrustean Regression Networks: Learning 3D Structure of Non-Rigid
Objects from 2D Annotations [42.476537776831314]
非剛体物体の3次元情報を学習できるニューラルネットワークの学習フレームワークを提案する。
提案手法は,Human 3.6M,300-VW,SURREALデータセット上での最先端手法よりも優れた再構成性能を示す。
論文 参考訳(メタデータ) (2020-07-21T17:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。