論文の概要: Geometric Context Transformer for Streaming 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2604.14141v2
- Date: Thu, 16 Apr 2026 16:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.21229
- Title: Geometric Context Transformer for Streaming 3D Reconstruction
- Title(参考訳): 3次元再構成のための幾何学的文脈変換器
- Authors: Lin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu,
- Abstract要約: LingBot-Mapは、ストリーミングデータからシーンを再構築するためのフィードフォワード3Dファウンデーションモデルである。
LingBot-Mapの定義的な側面は、アンカーコンテキスト、ポーズ参照ウィンドウ、トラジェクトリメモリを統合した、慎重に設計されたアテンションメカニズムにある。
この設計は、リッチな幾何学的コンテキストを維持しながら、ストリーミング状態をコンパクトに保ち、518 x 378の解像度入力に対して、20FPS程度の安定した効率的な推論を可能にする。
- 参考スコア(独自算出の注目度): 51.19524805829903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around 20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach achieves superior performance compared to both existing streaming and iterative optimization-based approaches.
- Abstract(参考訳): ストリーム3D再構成は、幾何学的精度、時間的一貫性、計算効率を必要とするビデオストリームから、カメラのポーズや点雲などの3D情報を復元することを目的としている。
LingBot-Mapはストリーミングデータからシーンを再構築するためのフィードフォワード3D基盤モデルであり、幾何学的文脈変換器(GCT)アーキテクチャに基づいている。
LingBot-Mapの定義的な側面は、アンカーコンテキスト、ポーズ参照ウィンドウ、トラジェクトリメモリを統合して、座標グラウンド、密度幾何学的キュー、長距離ドリフト補正を行う、慎重に設計されたアテンションメカニズムにある。
この設計は、リッチな幾何学的コンテキストを維持しながら、ストリーミング状態をコンパクトに保ち、518 x 378の解像度入力に対して、約20 FPSで安定な効率的な推論を可能にする。
様々なベンチマークで大規模な評価を行った結果、既存のストリーミングと反復最適化の両方のアプローチと比較して、我々のアプローチは優れたパフォーマンスを達成できた。
関連論文リスト
- GGPT: Geometry Grounded Point Transformer [22.64445696362087]
本稿では,GGPT(Geometry-Grounded Point Transformer)について紹介する。
この基礎の上に構築された幾何誘導型3次元点変換器は,比例的な部分幾何学的監督の下で高密度点マップを洗練する。
論文 参考訳(メタデータ) (2026-03-11T18:00:04Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction [24.582810014546524]
ハイブリッド表現上に構築された効率的なオンザフライ再構築フレームワークであるPLANingを提案する。
Planing は PGSR よりも 18.52% の高密度メッシュ Chamfer-L2 を改善し、ARTDECO を 1.31 dB PSNR で上回り、ScanNetV2 のシーンを100秒以内に再構築する。
PLANingは、大規模なシーンモデリングやシミュレーション可能な環境を具体化するなど、幅広いダウンストリームアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-29T17:47:26Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World [106.91539872943864]
St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-04-17T17:55:58Z) - GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors [47.21120442961684]
オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。
GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
論文 参考訳(メタデータ) (2025-04-01T17:58:03Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in
the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。
複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文 参考訳(メタデータ) (2020-07-24T23:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。