論文の概要: Mem3R: Streaming 3D Reconstruction with Hybrid Memory via Test-Time Training
- arxiv url: http://arxiv.org/abs/2604.07279v1
- Date: Wed, 08 Apr 2026 16:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.643064
- Title: Mem3R: Streaming 3D Reconstruction with Hybrid Memory via Test-Time Training
- Title(参考訳): Mem3R: テストタイムトレーニングによるハイブリッドメモリによる3次元再構成
- Authors: Changkun Liu, Jiezhi Yang, Zeman Li, Yuan Deng, Jiancong Guo, Luca Ballan,
- Abstract要約: ハイブリッドメモリ設計によるストリーミング3D再構成モデルであるMem3Rを提案する。
カメラトラッキングでは、Mem3Rは軽量のMulti-Layer Perceptronとして実装された暗黙の高速メモリを使用している。
幾何学的マッピングでは、Mem3Rは明示的なトークンベースの固定サイズ状態を維持している。
- 参考スコア(独自算出の注目度): 8.037339305506656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming 3D perception is well suited to robotics and augmented reality, where long visual streams must be processed efficiently and consistently. Recent recurrent models offer a promising solution by maintaining fixed-size states and enabling linear-time inference, but they often suffer from drift accumulation and temporal forgetting over long sequences due to the limited capacity of compressed latent memories. We propose Mem3R, a streaming 3D reconstruction model with a hybrid memory design that decouples camera tracking from geometric mapping to improve temporal consistency over long sequences. For camera tracking, Mem3R employs an implicit fast-weight memory implemented as a lightweight Multi-Layer Perceptron updated via Test-Time Training. For geometric mapping, Mem3R maintains an explicit token-based fixed-size state. Compared with CUT3R, this design not only significantly improves long-sequence performance but also reduces the model size from 793M to 644M parameters. Mem3R supports existing improved plug-and-play state update strategies developed for CUT3R. Specifically, integrating it with TTT3R decreases Absolute Trajectory Error by up to 39% over the base implementation on 500 to 1000 frame sequences. The resulting improvements also extend to other downstream tasks, including video depth estimation and 3D reconstruction, while preserving constant GPU memory usage and comparable inference throughput. Project page: https://lck666666.github.io/Mem3R/
- Abstract(参考訳): 3D認識のストリーミングは、ロボット工学や拡張現実によく適しており、長いビジュアルストリームを効率的かつ一貫して処理しなければならない。
最近のリカレントモデルでは、固定サイズの状態を維持し、線形時間推論を可能にすることで、有望な解決策を提供するが、圧縮された潜時記憶の容量に制限があるため、しばしばドリフト蓄積と時間的忘れ込みに悩まされる。
本稿では,幾何学的マッピングからカメラ追跡を分離し,長時間の時間的一貫性を向上するハイブリッドメモリ設計のストリーミング3D再構成モデルであるMem3Rを提案する。
カメラトラッキングでは、Mem3Rはテストタイムトレーニングによって更新された軽量のマルチ層パーセプトロンとして実装された暗黙の高速メモリを使用する。
幾何学的マッピングでは、Mem3Rは明示的なトークンベースの固定サイズ状態を維持している。
CUT3Rと比較して、この設計は長いシーケンス性能を著しく改善するだけでなく、モデルのサイズを793Mから644Mに短縮する。
Mem3RはCUT3R向けに開発された既存の改良されたプラグアンドプレイ状態更新戦略をサポートする。
具体的には、TT3Rと統合することで、500から1000フレームシーケンスのベース実装よりも、絶対軌道誤差を最大39%削減できる。
結果として得られた改善は、ビデオ深度推定や3D再構成など、他のダウンストリームタスクにも拡張され、一定のGPUメモリ使用量と同等の推論スループットが保存される。
プロジェクトページ: https://lck6666.github.io/Mem3R/
関連論文リスト
- MeMix: Writing Less, Remembering More for Streaming 3D Reconstruction [11.01217345606816]
トレーニング不要のプラグイン・アンド・プレイモジュールであるMeMixを,リカレント状態をメモリミックスに再キャストすることで,ストリーミング再生を改善する。
MeMixは状態を複数の独立したメモリパッチに分割し、他のメモリを保存しながら最下位のメモリパッチだけを更新する。
7シーンで300-500フレームストリームにわたる平均で15.3%(最大40.0%)の復元完全性エラーを低減する。
論文 参考訳(メタデータ) (2026-03-16T14:21:19Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Evict3R: Training-Free Token Eviction for Memory-Bounded Streaming Visual Geometry Transformers [1.9268905951820923]
StreamVGGTのようなストリーミングビジュアルトランスフォーマーは、強力な3D認識を実現するが、キーバリュー(KV)メモリの増大に悩まされる。
本稿では、冗長なトークンを破棄し、最も情報性の高いトークンを保持しながらメモリをバウンドする、トレーニング不要な推論時トークン消去ポリシーを提案する。
論文 参考訳(メタデータ) (2025-09-22T11:54:58Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - LONG3R: Long Sequence Streaming 3D Reconstruction [29.79885827038617]
Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-24T09:55:20Z) - Point3R: Streaming 3D Reconstruction with Explicit Spatial Pointer Memory [72.75478398447396]
我々は,高密度ストリーミング3D再構成を目的としたオンラインフレームワークであるPoint3Rを提案する。
具体的には、現在のシーンの3次元構造に直接関連した空間ポインタメモリを明示的に保持する。
本手法は,訓練コストの低い各種タスクにおいて,競争力や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-03T17:59:56Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。