論文の概要: ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training
- arxiv url: http://arxiv.org/abs/2603.04385v1
- Date: Wed, 04 Mar 2026 18:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.462319
- Title: ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training
- Title(参考訳): ZipMap: テストタイムトレーニングによる線形時間ステートフル3D再構成
- Authors: Haian Jin, Rundi Wu, Tianyuan Zhang, Ruiqi Gao, Jonathan T. Barron, Noah Snavely, Aleksander Holynski,
- Abstract要約: 本稿では,線形時間・双方向3次元再構成を2次時間法の精度に適合あるいは超越しながら実現した,ステートフルフィードフォワードモデルZipMapを紹介する。
ZipMapはテストタイムのトレーニングレイヤを使用して、イメージコレクション全体を単一のフォワードパスでコンパクトな隠れシーン状態にジップする。
リアルタイム・シーン・クエリーにおけるステートフルな表現の利点とシーケンシャル・ストリーミング・リストラクションへの拡張を実証する。
- 参考スコア(独自算出の注目度): 100.29965188088966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feed-forward transformer models have driven rapid progress in 3D vision, but state-of-the-art methods such as VGGT and $π^3$ have a computational cost that scales quadratically with the number of input images, making them inefficient when applied to large image collections. Sequential-reconstruction approaches reduce this cost but sacrifice reconstruction quality. We introduce ZipMap, a stateful feed-forward model that achieves linear-time, bidirectional 3D reconstruction while matching or surpassing the accuracy of quadratic-time methods. ZipMap employs test-time training layers to zip an entire image collection into a compact hidden scene state in a single forward pass, enabling reconstruction of over 700 frames in under 10 seconds on a single H100 GPU, more than $20\times$ faster than state-of-the-art methods such as VGGT. Moreover, we demonstrate the benefits of having a stateful representation in real-time scene-state querying and its extension to sequential streaming reconstruction.
- Abstract(参考訳): フィードフォワードトランスフォーマーモデルは3次元視覚の急速な進歩を導いているが、VGGTや$π^3$のような最先端の手法では、入力画像の数と2次スケールの計算コストがかかるため、大規模な画像コレクションに適用すると効率が悪くなる。
シーケンシャル・リコンストラクション・アプローチはこのコストを削減するが、再建の質を犠牲にする。
本稿では,線形時間・双方向3次元再構成を2次時間法の精度に適合あるいは超越しながら実現した,ステートフルフィードフォワードモデルZipMapを紹介する。
ZipMapはテスト時間トレーニングレイヤを使用して、イメージコレクション全体を単一のフォワードパスでコンパクトな隠れシーン状態にジップし、単一のH100 GPU上で700フレーム以上を10秒以内に再構築する。
さらに、リアルタイムなシーン・ステート・クエリにおけるステートフルな表現の利点と、シーケンシャルなストリーミング再構成への拡張を示す。
関連論文リスト
- VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale [44.72105958250334]
オフラインフィードフォワード方式における限界に対処するスケーラブルな3次元再構成モデルを提案する。
我々のアプローチは、このボトルネックがシーン幾何学の様々な長さのキーバリュー(KV)空間表現に起因しているというキーインサイトに基づいている。
VGG-T$3$ (Visual Geometry Grounded Test Time Training) はオンラインモデルに似た入力ビューの数を線形にスケールし、わずか54ドル秒で1k$の画像コレクションを再構築する。
論文 参考訳(メタデータ) (2026-02-26T18:59:33Z) - Link to the Past: Temporal Propagation for Fast 3D Human Reconstruction from Monocular Video [3.065513003860787]
本稿では,人間の外観の時間的コヒーレンシーを利用して冗長な計算を行う新しい方法であるTemPoFast3Dを提案する。
我々のアプローチは「プラグアンドプレイ」ソリューションであり、連続的なビデオストリームを処理するためにピクセル配列の再構成ネットワークを変換します。
大規模な実験では、TemPoFast3Dが標準メトリクス全体にわたって最先端のメソッドと一致しているか、あるいは超えている。
論文 参考訳(メタデータ) (2025-05-12T08:16:19Z) - FlowR: Flowing from Sparse to Dense 3D Reconstructions [60.28571003356382]
そこで本研究では,疎度な再現から密度な再構成に期待できるレンダリングまで,新しいビューレンダリングを接続するためのフローを学習するフローマッチングモデルを提案する。
我々のモデルは3.6Mイメージペアの新たなデータセットに基づいてトレーニングされており、単一のフォワードパスで1つのH100 GPU上で540x960解像度(91Kトークン)で45ビューまで処理できる。
論文 参考訳(メタデータ) (2025-04-02T11:57:01Z) - Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass [68.78222900840132]
我々は,DUSt3Rに並列に複数のビューを処理することで,効率よくスケーラブルな3D再構成を実現する新しい多視点一般化であるFast3Rを提案する。
Fast3Rは最先端のパフォーマンスを示し、推論速度とエラーの蓄積が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T18:59:55Z) - Continuous 3D Perception Model with Persistent State [111.83854602049222]
広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。
我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。
各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
論文 参考訳(メタデータ) (2025-01-21T18:59:23Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。