論文の概要: Anchor3R: Streaming 3D Reconstruction with Transient Anchors for Long-Horizon Visual Mapping
- arxiv url: http://arxiv.org/abs/2606.05035v1
- Date: Wed, 03 Jun 2026 16:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.876436
- Title: Anchor3R: Streaming 3D Reconstruction with Transient Anchors for Long-Horizon Visual Mapping
- Title(参考訳): Anchor3R: 長距離視覚マッピングのための過渡アンカーを用いた3次元再構成
- Authors: Peilin Tao, Chong Cheng, Yuansen Du, Caiwei Song, Zhengqing Chen, Xiaoyang Guo, Wei Yin, Weiqiang Ren, Qian Zhang, Hainan Cui, Shuhan Shen,
- Abstract要約: ロングホライゾンのオンライン視覚マッピングは、ロボット知覚のコア機能である。
最近のフィードフォワード3D再構成モデルは、第1フレームまたは永続的なシーンメモリに結び付けられた固定座標系におけるポーズを予測する。
フィードフォワード再構成を電流中心の局所測定予測として扱うストリーミング3D再構成フレームワークであるemphAnchor3Rを提案する。
- 参考スコア(独自算出の注目度): 28.6268034980389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon online visual mapping is a core capability for robot perception, requiring continuous camera-motion and scene-geometry estimation from visual streams under bounded memory and computation. Recent feed-forward 3D reconstruction models provide strong geometric priors, but their streaming variants often predict poses in a fixed coordinate system tied to the first frame or a persistent scene memory. This fixed-gauge design leads to train--test mismatch, attention bias toward early anchors, and accumulated drift on sequences much longer than those seen during training. We propose \emph{Anchor3R}, a streaming 3D reconstruction framework that treats feed-forward reconstruction as current-centric local measurement prediction rather than persistent global-gauge regression. At each time step, Anchor3R predicts window-relative poses and a local pointmap in the current-frame coordinate system, turning streaming reconstruction into relative-pose measurement generation. These measurements support online pose updates, while loop-closure reinsertion and motion averaging align the trajectory and transform local pointmaps into a coherent global reconstruction. Experiments on indoor, outdoor, driving, and RGB-D benchmarks show that Anchor3R improves long-horizon pose accuracy and dense reconstruction quality over existing streaming baselines, while supporting bounded-memory online inference.
- Abstract(参考訳): ロングホライズンオンラインビジュアルマッピングはロボット知覚のコア機能であり、連続的なカメラモーションと、境界メモリと計算条件下での視覚ストリームからのシーン幾何学的推定を必要とする。
最近のフィードフォワード3D再構成モデルは、強力な幾何学的先行性を提供するが、ストリーミングのバリエーションは、しばしば、固定座標系において、第1フレームまたは永続的なシーンメモリに結び付けられたポーズを予測する。
この固定ゲージ設計は、テストミスマッチ、早期アンカーへの注意バイアス、トレーニング中に見られたものよりもはるかに長いシーケンスでのドリフトの蓄積につながる。
本稿では, フィードフォワード再構成を, 持続的グローバルゲージ回帰ではなく, 電流中心の局所測定予測として扱うストリーミング3D再構成フレームワークである \emph{Anchor3R} を提案する。
各タイミングステップで、Anchor3Rは、現在のフレーム座標系におけるウィンドウ相対的なポーズと局所的なポイントマップを予測し、ストリーミング再構成を相対的な測定生成に変換する。
これらの測定はオンラインのポーズ更新をサポートし、ループ閉鎖リサーションとモーション平均化は軌道を整列し、局所的なポイントマップを一貫性のあるグローバルな再構築に変換する。
屋内、屋外、運転、RGB-Dベンチマークの実験では、Anchor3Rは既存のストリーミングベースラインよりも精度が高く、再現性が高いことを示し、バウンデッドメモリのオンライン推論をサポートしている。
関連論文リスト
- Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction [19.132257919770947]
連続画像ストリームからの3次元再構成には、正確な幾何集約と安定したメモリ管理が必要である。
空間的位置と視線方向の両方を明示的にモデル化した3次元再構成のためのレイアウェア・ポインターメモリを提案する。
われわれのアプローチは、画像ストリームからのスケーラブルでドリフトに耐性のあるオンライン3D再構成のための、原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-07T06:42:11Z) - Geometric Context Transformer for Streaming 3D Reconstruction [51.19524805829903]
LingBot-Mapは、ストリーミングデータからシーンを再構築するためのフィードフォワード3Dファウンデーションモデルである。
LingBot-Mapの定義的な側面は、アンカーコンテキスト、ポーズ参照ウィンドウ、トラジェクトリメモリを統合した、慎重に設計されたアテンションメカニズムにある。
この設計は、リッチな幾何学的コンテキストを維持しながら、ストリーミング状態をコンパクトに保ち、518 x 378の解像度入力に対して、20FPS程度の安定した効率的な推論を可能にする。
論文 参考訳(メタデータ) (2026-04-15T17:58:13Z) - Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - PAS3R: Pose-Adaptive Streaming 3D Reconstruction for Long Video Sequences [6.455635287305678]
PAS3Rはポーズ適応型ストリーミング再構成フレームワークで、カメラの動きやシーン構造に応じて動的に状態更新を変調する。
PAS3Rは、長いビデオシーケンスにおける軌道精度、深さ推定、点雲再構成の精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2026-03-22T22:57:30Z) - AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [78.78355829813793]
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。
実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
論文 参考訳(メタデータ) (2026-02-16T17:23:08Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer [72.88105562624838]
本稿では,ポイントマップ予測をデコーダのみの変換器問題として再構成する新しい3次元再構成手法STream3Rを提案する。
大規模な3Dデータセットから幾何学的先行性を学ぶことで、STream3Rは多様で困難なシナリオにうまく一般化する。
この結果から,オンライン3次元知覚のための因果変換モデルの可能性を浮き彫りにし,ストリーミング環境におけるリアルタイム3次元理解の道を開いた。
論文 参考訳(メタデータ) (2025-08-14T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。