論文の概要: Fast Spatial Memory with Elastic Test-Time Training
- arxiv url: http://arxiv.org/abs/2604.07350v1
- Date: Wed, 08 Apr 2026 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.6746
- Title: Fast Spatial Memory with Elastic Test-Time Training
- Title(参考訳): 弾力的テストタイムトレーニングによる空間記憶の高速化
- Authors: Ziqiao Ma, Xueyang Yu, Haoyu Zhen, Yuncong Yang, Joyce Chai, Chuang Gan,
- Abstract要約: 大規模チャンクテストタイムトレーニング (LaCT) は, 長期間の3次元再構成において高い性能を示した。
LaCTは通常、完全な入力シーケンスにまたがる単一の大きなチャンクでインスタンス化される。
弾性重み強化に触発された弾性試験時間トレーニングを提案する。
- 参考スコア(独自算出の注目度): 43.871867249025684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.
- Abstract(参考訳): 大規模なChunk Test-Time Training (LaCT)は、長期のコンテキスト3D再構成において強力な性能を示しているが、完全なプラスチックの推論時間更新は、破滅的な忘れと過度な適合に弱いままである。
結果として、LaCTは通常、完全な入力シーケンスにまたがる単一の大きなチャンクでインスタンス化される。
本研究では, 弾性重み付けによる弾性試験時間トレーニングを提案し, 維持アンカー状態に先立って, フィッシャー重み付き弾性によりLaCTの高速重量更新を安定化させる。
アンカーは、安定性と可塑性のバランスをとるために過去の高速重量の指数的な移動平均として進化する。
この更新されたアーキテクチャに基づいて、4次元再構成のための効率的でスケーラブルなモデルである高速空間記憶(FSM)を導入し、長い観測シーケンスから時空間表現を学習し、新しいビュータイムの組み合わせを描画する。
大規模3D/4Dデータを用いてFSMを事前学習し,複雑な空間環境の力学と意味を解析した。
大規模な実験により、FSMは長いシーケンスに対する高速な適応をサポートし、より小さなチャンクで高品質な3D/4D再構成を実現し、カメラ補間ショートカットを緩和することが示された。
全体として、我々はLaCTを、より長いシーケンスに一般化するために必要なステップであるロバストなマルチチャンク適応に向けて有界な単一チャンク設定を超えて進めるとともに、アクティベーション・メモリのボトルネックを大幅に緩和することを期待している。
関連論文リスト
- DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting [6.800568640042171]
時系列予測は、金融、気象学、エネルギーといった分野において重要である。
本稿では,これらの課題に対処する動的意味圧縮(DySCo)フレームワークを提案する。
DySCoは汎用的なプラグイン・アンド・プレイモジュールとして機能し、主要なモデルが長期的相関を捉える能力を大幅に強化する。
論文 参考訳(メタデータ) (2026-04-01T12:40:23Z) - TRiGS: Temporal Rigid-Body Motion for Scalable 4D Gaussian Splatting [40.83830884179225]
TRiGSは、統一された連続した幾何学的変換を利用する新しい4D表現である。
我々は,TRiGSが高精細度のレンダリングを標準ベンチマーク上で実現しつつ,メモリボトルネックを重くすることなく,拡張されたビデオシーケンスに一意にスケール可能であることを示す。
論文 参考訳(メタデータ) (2026-04-01T06:35:13Z) - PAS3R: Pose-Adaptive Streaming 3D Reconstruction for Long Video Sequences [6.455635287305678]
PAS3Rはポーズ適応型ストリーミング再構成フレームワークで、カメラの動きやシーン構造に応じて動的に状態更新を変調する。
PAS3Rは、長いビデオシーケンスにおける軌道精度、深さ推定、点雲再構成の精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2026-03-22T22:57:30Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change [52.46888249268445]
長期の環境モニタリングには、数ヶ月または数年ごとに分割された繰り返しサイト訪問で3Dモデルを再構築し調整する機能が必要である。
既存のアプローチは、独立して再構築されたセッションのポストホックアライメントに依存している。
我々は,共同SfM再建において,クロスセッション対応を直接実施することを提案する。
論文 参考訳(メタデータ) (2026-02-24T06:12:51Z) - Scalable Spatio-Temporal SE(3) Diffusion for Long-Horizon Protein Dynamics [51.85385061275941]
分子動力学(MD)シミュレーションは、タンパク質動力学研究のゴールドスタンダードのままである。
近年の生成モデルではシミュレーションの加速が期待できるが、長軸生成に苦慮している。
物理的に可塑性なタンパク質軌道をマイクロスケールの時間スケールで生成する拡張拡散モデルSTAR-MDを提案する。
論文 参考訳(メタデータ) (2026-02-02T14:13:28Z) - MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。
我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。
境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文 参考訳(メタデータ) (2025-12-10T02:49:09Z) - Unsupervised Online 3D Instance Segmentation with Synthetic Sequences and Dynamic Loss [52.28880405119483]
教師なしのオンライン3Dインスタンスのセグメンテーションは、基本的だが難しい課題だ。
UNITのような既存の手法はこの方向に進んできたが、訓練の多様性が制限されているままである。
本稿では,合成点雲列生成によるトレーニング分布の強化を目的とした新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T08:53:27Z) - EvolvingGS: High-Fidelity Streamable Volumetric Video via Evolving 3D Gaussian Representation [14.402479944396665]
EvolvingGSは、まずターゲットフレームに合わせるためにガウスモデルを変形させ、最小点加算/減算で洗練する2段階戦略である。
漸進的に進化する表現の柔軟性のため,本手法はフレーム単位と時間単位の品質指標の両方で既存手法より優れている。
我々の手法は、特に複雑な人間のパフォーマンスを持つ拡張シーケンスにおいて、動的シーン再構成の最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-07T06:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。