論文の概要: TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2601.22615v1
- Date: Fri, 30 Jan 2026 06:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.264187
- Title: TTSA3R: Training-Free Temporal-Spatial Adaptive Persistent State for Streaming 3D Reconstruction
- Title(参考訳): TTSA3R : 3次元再構成のための訓練不要時空間適応型永続状態
- Authors: Zhijie Zheng, Xinhao Xiang, Jiawei Zhang,
- Abstract要約: ストリーミングリカレントモデルは、永続的な状態表現を維持することで効率的な3D再構成を可能にする。
近年の手法では、アダプティブシグナルを注意視点から導き出すことによってこれを緩和している。
本稿では,時間的状態の進化と空間的観察品質の両面を活用する,TTSA3Rというトレーニングフリーフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.124244013253806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming recurrent models enable efficient 3D reconstruction by maintaining persistent state representations. However, they suffer from catastrophic memory forgetting over long sequences due to balancing historical information with new observations. Recent methods alleviate this by deriving adaptive signals from attention perspective, but they operate on single dimensions without considering temporal and spatial consistency. To this end, we propose a training-free framework termed TTSA3R that leverages both temporal state evolution and spatial observation quality for adaptive state updates in 3D reconstruction. In particular, we devise a Temporal Adaptive Update Module that regulates update magnitude by analyzing temporal state evolution patterns. Then, a Spatial Contextual Update Module is introduced to localize spatial regions that require updates through observation-state alignment and scene dynamics. These complementary signals are finally fused to determine the state updating strategies. Extensive experiments demonstrate the effectiveness of TTSA3R in diverse 3D tasks. Moreover, our method exhibits only 15% error increase compared to over 200% degradation in baseline models on extended sequences, significantly improving long-term reconstruction stability. Our codes will be available soon.
- Abstract(参考訳): ストリーミングリカレントモデルは、永続的な状態表現を維持することで効率的な3D再構成を可能にする。
しかし、彼らは歴史的情報と新しい観測のバランスをとるために、長い連続を忘れてしまう破滅的な記憶に悩まされている。
近年の手法では、注意点から適応信号を導出することでこれを緩和するが、時間的・空間的整合性を考慮せずに単一の次元で動作する。
そこで本研究では,3次元再構成における適応状態更新に時間的状態の進化と空間観測品質の両方を活用する,TTSA3Rという学習自由フレームワークを提案する。
特に、時相状態の進化パターンを解析することにより、更新の規模を規定する時間適応更新モジュールを考案する。
次に、空間コンテキスト更新モジュールを導入し、観測状態アライメントとシーンダイナミクスによる更新を必要とする空間領域をローカライズする。
これらの補完信号は最終的に融合され、状態更新戦略が決定される。
TTSA3Rは多種多様な3次元作業において有効である。
さらに, 提案手法は, 拡張シーケンス上でのベースラインモデルの劣化に対して, 15%の誤差増加しか示さず, 長期化の安定性が著しく向上した。
私たちのコードはまもなく利用可能になります。
関連論文リスト
- Learning Dynamic Scene Reconstruction with Sinusoidal Geometric Priors [8.153339288887922]
本稿では,3次元シーン再構成の精度向上のために,正弦波表現ネットワークの周期的活性化とキーポイント構造から派生した幾何的先行情報を組み合わせた新しい損失関数であるSierenPoseを提案する。
論文 参考訳(メタデータ) (2025-12-25T20:51:19Z) - RecurGS: Interactive Scene Modeling via Discrete-State Recurrent Gaussian Fusion [21.761449995572757]
RecurGSは、離散ガウスのシーン状態を単一の進化的表現に統合する、再帰的な融合フレームワークである。
酸素化可視性融合モジュールは、安定領域を固定しつつ、新しく観察された領域を選択的に包含する。
当社のフレームワークは,更新効率を大幅に向上した高品質な再構築を実現する。
論文 参考訳(メタデータ) (2025-12-20T14:53:22Z) - StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文 参考訳(メタデータ) (2025-08-04T04:50:05Z) - STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction [2.884410617643992]
3Dの占有とシーンフローは、詳細な3Dシーンのダイナミックな表現を提供する。
従来の視覚中心の手法では、空間情報と時間情報をモデル化するための暗黙の学習に基づくアプローチが採用されてきた。
本稿では, 占有状態を利用して3次元特徴を再構築する, 明示的な状態ベースモデリング手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T12:49:20Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Nothing Stands Still: A Spatiotemporal Benchmark on 3D Point Cloud Registration Under Large Geometric and Temporal Change [82.31647863785923]
人工空間の3次元幾何学地図の構築は、基本的なコンピュータビジョンとロボット工学である。
Not Stands Still (NSS)ベンチマークは、大きな空間的および時間的変化を行う3Dシーンの時間的登録に焦点を当てている。
NSSの一環として,建設中または改修中の大規模建築屋内環境において,3次元点雲のデータセットを連続的に取得する。
論文 参考訳(メタデータ) (2023-11-15T20:09:29Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。