論文の概要: LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
- arxiv url: http://arxiv.org/abs/2602.13172v1
- Date: Fri, 13 Feb 2026 18:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.078163
- Title: LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
- Title(参考訳): LongStream: 時系列のストリーミング自動回帰ビジュアルジオメトリ
- Authors: Chong Cheng, Xianda Chen, Tao Xie, Wei Yin, Weiqiang Ren, Qian Zhang, Xiaoyuang Guo, Hao Wang,
- Abstract要約: LongStreamは、計量スケールのシーン再構成のための新しいゲージ分離型ストリーミングビジュアルジオメトリモデルである。
長距離外挿を定距離局所的なタスクに再構成する。
安定して18FPSで、キロメートルスケールのシークエンスで安定してメートルスケールの再構築を行う。
- 参考スコア(独自算出の注目度): 18.46781332515933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-sequence streaming 3D reconstruction remains a significant open challenge. Existing autoregressive models often fail when processing long sequences. They typically anchor poses to the first frame, which leads to attention decay, scale drift, and extrapolation errors. We introduce LongStream, a novel gauge-decoupled streaming visual geometry model for metric-scale scene reconstruction across thousands of frames. Our approach is threefold. First, we discard the first-frame anchor and predict keyframe-relative poses. This reformulates long-range extrapolation into a constant-difficulty local task. Second, we introduce orthogonal scale learning. This method fully disentangles geometry from scale estimation to suppress drift. Finally, we solve Transformer cache issues such as attention-sink reliance and long-term KV-cache contamination. We propose cache-consistent training combined with periodic cache refresh. This approach suppresses attention degradation over ultra-long sequences and reduces the gap between training and inference. Experiments show LongStream achieves state-of-the-art performance. It delivers stable, metric-scale reconstruction over kilometer-scale sequences at 18 FPS. Project Page: https://3dagentworld.github.io/longstream/
- Abstract(参考訳): 長時間のストリーミング3D再構成は依然として大きな課題である。
既存の自己回帰モデルは、長いシーケンスを処理するときに失敗することが多い。
通常は第1フレームにアンカーポーズし、注意崩壊、スケールドリフト、外挿エラーを引き起こす。
数千フレームにわたる距離スケールのシーン再構成のための,新しいゲージ分離型ストリーミングビジュアルジオメトリモデルであるLongStreamを紹介した。
私たちのアプローチは3倍です。
まず、最初のフレームアンカーを捨てて、キーフレーム相対的なポーズを予測する。
これにより、長距離外挿を定距離局所的なタスクに再構成する。
第2に、直交的スケール学習を導入する。
この方法は、スケール推定から幾何を完全に切り離し、ドリフトを抑制する。
最後に、注意リンク依存や長期KVキャッシュ汚染といったトランスフォーマーキャッシュの問題を解決する。
本稿では,定期的なキャッシュリフレッシュとキャッシュ一貫性トレーニングを提案する。
このアプローチは、超長いシーケンスに対する注意の低下を抑制し、トレーニングと推論のギャップを小さくする。
実験では、LongStreamが最先端のパフォーマンスを達成した。
安定して18FPSで、キロメートルスケールのシークエンスで安定してメートルスケールの再構築を行う。
Project Page: https://3dagentworld.github.io/longstream/
関連論文リスト
- LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams [22.277387867568834]
InfiniteVGGT (InfiniteVGT) は、ローリングメモリの概念を、有界で適応的で永続的に表現可能なKVキャッシュを通じて操作する因果的視覚幾何学変換器である。
本稿では,約1万フレームの連続3次元幾何推定を厳密に評価できるLong3Dベンチマークを提案する。
論文 参考訳(メタデータ) (2026-01-05T17:11:00Z) - TTT3R: 3D Reconstruction as Test-Time Training [69.51086319339662]
テストタイムトレーニングの観点から3次元再構築基盤モデルを再考する。
メモリ状態と受信した観測値のアライメントの信頼性を利用して、クローズドフォーム学習率を導出する。
この訓練のない介入はTTT3Rと呼ばれ、長さの一般化を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-30T17:59:51Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z) - LONG3R: Long Sequence Streaming 3D Reconstruction [29.79885827038617]
Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-24T09:55:20Z) - SplatVoxel: History-Aware Novel View Streaming without Temporal Training [29.759664150610362]
スパースビュー映像からの新たなビューストリーミングの問題について検討する。
既存のビュー合成手法は、時間的コヒーレンスと視覚的忠実さに苦慮している。
本稿では,ハイブリッド型スプラ・ボクセルフィードフォワードシーン再構築手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T20:00:47Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。