論文の概要: LASER: Layer-wise Scale Alignment for Training-Free Streaming 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.13680v1
- Date: Mon, 15 Dec 2025 18:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.829484
- Title: LASER: Layer-wise Scale Alignment for Training-Free Streaming 4D Reconstruction
- Title(参考訳): Laser: 学習不要な4D再構成のためのレイヤーワイドスケールアライメント
- Authors: Tianye Ding, Yiming Xie, Yiqing Liang, Moitreya Chatterjee, Pedro Miraldo, Huaizu Jiang,
- Abstract要約: LASERは、オフラインの再構築モデルをストリーミングシステムに変換する、トレーニング不要のフレームワークである。
深度予測を個別の層に分割する階層ワイドスケールアライメントを導入する。
実験により、RAERはカメラポーズ推定およびポイントマップ再構成の精度をオフラインモデルと同等に向上することを示した。
- 参考スコア(独自算出の注目度): 28.14207161940146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent feed-forward reconstruction models like VGGT and $π^3$ achieve impressive reconstruction quality but cannot process streaming videos due to quadratic memory complexity, limiting their practical deployment. While existing streaming methods address this through learned memory mechanisms or causal attention, they require extensive retraining and may not fully leverage the strong geometric priors of state-of-the-art offline models. We propose LASER, a training-free framework that converts an offline reconstruction model into a streaming system by aligning predictions across consecutive temporal windows. We observe that simple similarity transformation ($\mathrm{Sim}(3)$) alignment fails due to layer depth misalignment: monocular scale ambiguity causes relative depth scales of different scene layers to vary inconsistently between windows. To address this, we introduce layer-wise scale alignment, which segments depth predictions into discrete layers, computes per-layer scale factors, and propagates them across both adjacent windows and timestamps. Extensive experiments show that LASER achieves state-of-the-art performance on camera pose estimation and point map reconstruction %quality with offline models while operating at 14 FPS with 6 GB peak memory on a RTX A6000 GPU, enabling practical deployment for kilometer-scale streaming videos. Project website: $\href{https://neu-vi.github.io/LASER/}{\texttt{https://neu-vi.github.io/LASER/}}$
- Abstract(参考訳): VGGTや$π^3$といった最近のフィードフォワード再構成モデルは、印象的なリコンストラクション品質を実現するが、二次記憶の複雑さのためにストリーミングビデオは処理できず、実際の展開を制限している。
既存のストリーミング手法は学習した記憶機構や因果的注意を通してこの問題に対処するが、それらは広範囲な再訓練を必要とし、最先端のオフラインモデルの強力な幾何学的先行を十分に活用できない可能性がある。
本研究では,オフライン復元モデルをストリーミングシステムに変換する学習自由フレームワークLASERを提案する。
単分子スケールの曖昧さは、異なるシーン層の相対的な深さスケールを窓間で不整合に変化させる。
これを解決するために,レイヤワイズスケールアライメントを導入し,深度予測を個別のレイヤに分割し,レイヤごとのスケールファクタを計算し,隣接するウィンドウとタイムスタンプの両方にわたって伝播する。
RTX A6000 GPU上で6GBのピークメモリを持つ14 FPSで動作しながら、カメラのポーズ推定とポイントマップ再構成において、RAERがオフラインモデルと同等の性能を達成し、キロメートル規模のストリーミングビデオの実用的な展開を可能にした。
プロジェクトウェブサイト: $\href{https://neu-vi.github.io/LASER/}{\textt{https://neu-vi.github.io/LASER/}}$
関連論文リスト
- STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - A LoD of Gaussians: Unified Training and Rendering for Ultra-Large Scale Reconstruction with External Memory [14.128827855029636]
コンシューマグレードのGPU上で,超大規模シーンのトレーニングとレンダリングを行うフレームワークであるA LoD of Gaussiansを紹介した。
ガウス階層と逐次点木を組み合わせたハイブリッドデータ構造は、効率的なビュー依存のLoD選択を可能にする。
軽量キャッシングとビュースケジューリングシステムは、リアルタイムストリーミングとレンダリングをサポートするために時間的コヒーレンスを利用する。
論文 参考訳(メタデータ) (2025-07-01T18:12:43Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Spatial-Temporal Deep Embedding for Vehicle Trajectory Reconstruction
from High-Angle Video [1.8520147498637294]
車両セグメンテーションのためのインスタンス認識埋め込みをSTMap上に生成するために,画素レベルとインスタンスレベルの両方でパリティ制約を課すモデルを開発した。
デザインされたモデルは、すべてのNGSIM US-101ビデオを処理して完全な車両軌道を生成するために適用される。
論文 参考訳(メタデータ) (2022-09-17T22:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。