論文の概要: HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2605.23889v1
- Date: Fri, 22 May 2026 17:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.456609
- Title: HorizonStream: Long-Horizon Attention for Streaming 3D Reconstruction
- Title(参考訳): HorizonStream:3Dレコンストラクションストリーミングのための長距離アテンション
- Authors: Chong Cheng, Peilin Tao, Nanjie Yao, Guanzhi Ding, Xianda Chen, Yuansen Du, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Zhengqing Chen, Hao Wang,
- Abstract要約: 既存の方法は、しばしば長いシーケンスでドリフト、ジッター、崩壊に悩まされる。
我々は,このカーネルを明示的に分解する長い水平変換器であるHorizonStreamを提案する。
実験により,HorizonStreamは定数メモリと線形時間で1万フレームを超えるシーケンスに安定に一般化できることが示された。
- 参考スコア(独自算出の注目度): 18.749241400724493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online 3D reconstruction requires estimating camera pose and scene geometry under strict causal and bounded-memory constraints. Existing methods often suffer from drift, jitter, or collapse on long sequences. We trace these failures to a fundamental mismatch. Streaming geometry is inherently temporally heterogeneous, with evidence ranging from short-lived correspondences to persistent global scale. However, current architectures impose uniform and pathological influence patterns. For example, sliding windows enforce hard cutoffs, while ungated recurrence and causal attention cause cache saturation and spike-like attention sinks. To resolve this, we formalize geometric propagation as an \emph{evidence influence kernel} and propose HorizonStream, a long-horizon Transformer that explicitly factorizes this kernel. For the long-range temporal factor, Geometric Linear Attention learns channel-wise decay rates to enable bounded, multi-timescale propagation of geometric evidence. For the short-range spatial factor, Geometric Local Attention with Spatiotemporal RoPE performs reliable 3D matching while suppressing attention sinks. Finally, Metric Readout Tokens recover stable scale and rigid pose directly from the persistent geometric state. Extensive experiments show that HorizonStream, trained on only 48-frame clips, generalizes stably to sequences exceeding 10,000\ frames with constant memory and linear time, achieving state-of-the-art streaming 3D reconstruction performance. Project Page: https://3dagentworld.github.io/horizonstream/
- Abstract(参考訳): オンライン3D再構成では、厳密な因果制約と境界メモリ制約の下でカメラポーズとシーン形状を推定する必要がある。
既存の方法は、しばしば長いシーケンスでドリフト、ジッター、崩壊に悩まされる。
これらの失敗を基本的なミスマッチにトレースします。
ストリーミング幾何学は本質的に時間的に異質であり、短命な対応から永続的なグローバルスケールまで幅広い証拠がある。
しかし、現在の建築は、一様かつ病理的な影響のパターンを課している。
例えば、スライディングウィンドウはハードカットを強制する一方、無言の再発と因果的注意はキャッシュ飽和とスパイクのような注意シンクを引き起こす。
これを解決するために、幾何伝播を \emph{evidence influence kernel} として形式化し、このカーネルを明示的に分解する長い水平変換器であるHorizonStreamを提案する。
長距離時間係数について、幾何学的線形注意(Geometric Linear Attention)は、チャネルワイズ崩壊率を学習し、幾何学的証拠の有界多時間伝播を可能にする。
短距離空間係数に対して、時空間RoPEを用いた幾何学的局所注意は、注意シンクを抑制しながら信頼性の高い3次元マッチングを行う。
最後に、Metric Readout Tokensは安定したスケールと厳密なポーズを永続的な幾何学状態から直接回復する。
大規模な実験により、48フレームのクリップでトレーニングされたHorizonStreamは、一定メモリと線形時間で10,000\のフレームを超えるシーケンスを安定して一般化し、最先端のストリーミング3D再構成性能を実現している。
Project Page: https://3dagentworld.github.io/Horizonstream/
関連論文リスト
- S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [78.78355829813793]
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。
実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
論文 参考訳(メタデータ) (2026-02-16T17:23:08Z) - LongStream: Long-Sequence Streaming Autoregressive Visual Geometry [18.46781332515933]
LongStreamは、計量スケールのシーン再構成のための新しいゲージ分離型ストリーミングビジュアルジオメトリモデルである。
長距離外挿を定距離局所的なタスクに再構成する。
安定して18FPSで、キロメートルスケールのシークエンスで安定してメートルスケールの再構築を行う。
論文 参考訳(メタデータ) (2026-02-13T18:30:51Z) - Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。
Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文 参考訳(メタデータ) (2026-02-08T08:01:16Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams [22.277387867568834]
InfiniteVGGT (InfiniteVGT) は、ローリングメモリの概念を、有界で適応的で永続的に表現可能なKVキャッシュを通じて操作する因果的視覚幾何学変換器である。
本稿では,約1万フレームの連続3次元幾何推定を厳密に評価できるLong3Dベンチマークを提案する。
論文 参考訳(メタデータ) (2026-01-05T17:11:00Z) - WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion [78.20778143251171]
WorldWarpは、3D構造アンカーと2D生成ファインダを結合するフレームワークだ。
WorldWarpは、各ステップで3Dキャッシュを動的に更新することで、ビデオチャンク間の一貫性を維持する。
3Dロジックが構造をガイドし、拡散ロジックがテクスチャを完璧にすることで、最先端の忠実さを実現する。
論文 参考訳(メタデータ) (2025-12-22T18:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。