論文の概要: WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
- arxiv url: http://arxiv.org/abs/2509.05296v1
- Date: Fri, 05 Sep 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.682342
- Title: WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool
- Title(参考訳): WinT3R:カメラトーケンプールによるウィンドウベースのストリーミング再構成
- Authors: Zizun Li, Jianjun Zhou, Yifan Wang, Haoyu Guo, Wenzheng Chang, Yang Zhou, Haoyi Zhu, Junyi Chen, Chunhua Shen, Tong He,
- Abstract要約: WinT3Rは、正確なカメラポーズと高品質のポイントマップのオンライン予測が可能なフィードフォワード再構成モデルである。
本稿では,ウィンドウ内のフレーム間で十分な情報交換を実現するスライディングウィンドウ機構を提案する。
我々は、カメラのコンパクトな表現を活用し、グローバルなカメラトークンプールを維持し、カメラポーズ推定の信頼性を高める。
- 参考スコア(独自算出の注目度): 54.93856767365114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WinT3R, a feed-forward reconstruction model capable of online prediction of precise camera poses and high-quality point maps. Previous methods suffer from a trade-off between reconstruction quality and real-time performance. To address this, we first introduce a sliding window mechanism that ensures sufficient information exchange among frames within the window, thereby improving the quality of geometric predictions without large computation. In addition, we leverage a compact representation of cameras and maintain a global camera token pool, which enhances the reliability of camera pose estimation without sacrificing efficiency. These designs enable WinT3R to achieve state-of-the-art performance in terms of online reconstruction quality, camera pose estimation, and reconstruction speed, as validated by extensive experiments on diverse datasets. Code and model are publicly available at https://github.com/LiZizun/WinT3R.
- Abstract(参考訳): 我々は、正確なカメラポーズと高品質のポイントマップのオンライン予測が可能なフィードフォワード再構成モデルWinT3Rを提案する。
従来の手法は、復元品質とリアルタイムのパフォーマンスのトレードオフに悩まされていた。
そこで我々はまず,ウィンドウ内のフレーム間で十分な情報交換を実現するスライディングウィンドウ機構を導入する。
さらに、カメラのコンパクトな表現を活用し、グローバルなカメラトークンプールを維持し、効率を犠牲にすることなく、カメラポーズ推定の信頼性を高める。
これらの設計により、WinT3Rは、様々なデータセットに関する広範な実験によって検証されるように、オンラインの再構築品質、カメラポーズ推定、再構築速度の観点から、最先端のパフォーマンスを達成することができる。
コードとモデルはhttps://github.com/LiZizun/WinT3R.comで公開されている。
関連論文リスト
- BRUM: Robust 3D Vehicle Reconstruction from 360 Sparse Images [21.811586185200706]
本稿では,スパースビュー入力から車両を再構築する際の課題について述べる。
我々は、新しいビューを合成するために、深度マップとロバストなポーズ推定アーキテクチャを活用する。
本稿では,合成と現実の両方の公共交通機関を特徴とする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-07-16T10:04:35Z) - Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass [68.78222900840132]
我々は,DUSt3Rに並列に複数のビューを処理することで,効率よくスケーラブルな3D再構成を実現する新しい多視点一般化であるFast3Rを提案する。
Fast3Rは最先端のパフォーマンスを示し、推論速度とエラーの蓄積が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T18:59:55Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration [34.18403601269181]
DM-Calibは単一の入力画像からピンホールカメラ固有のパラメータを推定するための拡散に基づくアプローチである。
我々は、カメラ画像と呼ばれる新しい画像ベース表現を導入し、数値カメラの内在を無意味に符号化する。
一つのRGB入力からカメラ画像を生成するための安定拡散モデルを微調整することにより、RANSAC操作を介してカメラ固有の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-11-26T09:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。