論文の概要: HyVGGT-VO: Tightly Coupled Hybrid Dense Visual Odometry with Feed-Forward Models
- arxiv url: http://arxiv.org/abs/2604.02107v1
- Date: Thu, 02 Apr 2026 14:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.860499
- Title: HyVGGT-VO: Tightly Coupled Hybrid Dense Visual Odometry with Feed-Forward Models
- Title(参考訳): HyVGGT-VO:フィードフォワードモデルを用いた高結合型ハイブリッド高密度ビジュアルオドメトリー
- Authors: Junxiang Pan, Lipu Zhou, Baojie Chen,
- Abstract要約: HyVGGT-VOはスパースVOの計算効率とフィードフォワードモデルの高密度再構成機能を組み合わせた新しいフレームワークである。
提案手法は,既存のVGGT法と比較して約5倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 5.774229010627818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense visual odometry (VO), which provides pose estimation and dense 3D reconstruction, serves as the cornerstone for applications ranging from robotics to augmented reality. Recently, feed-forward models have demonstrated remarkable capabilities in dense mapping. However, when these models are used in dense visual SLAM systems, their heavy computational burden restricts them to yielding sparse pose outputs at keyframes while still failing to achieve real-time pose estimation. In contrast, traditional sparse methods provide high computational efficiency and high-frequency pose outputs, but lack the capability for dense reconstruction. To address these limitations, we propose HyVGGT-VO, a novel framework that combines the computational efficiency of sparse VO with the dense reconstruction capabilities of feed-forward models. To the best of our knowledge, this is the first work to tightly couple a traditional VO framework with VGGT, a state-of-the-art feed-forward model. Specifically, we design an adaptive hybrid tracking frontend that dynamically switches between traditional optical flow and the VGGT tracking head to ensure robustness. Furthermore, we introduce a hierarchical optimization framework that jointly refines VO poses and the scale of VGGT predictions to ensure global scale consistency. Our approach achieves an approximately 5x processing speedup compared to existing VGGT-based methods, while reducing the average trajectory error by 85% on the indoor EuRoC dataset and 12% on the outdoor KITTI benchmark. Our code will be publicly available upon acceptance. Project page: https://geneta2580.github.io/HyVGGT-VO.io.
- Abstract(参考訳): ポーズ推定と密集した3D再構成を提供するDense visual odometry (VO)は、ロボット工学から拡張現実まで幅広い応用の基盤となる。
近年, フィードフォワードモデルは高密度マッピングにおいて顕著な機能を示した。
しかし、これらのモデルが高密度視覚SLAMシステムで使用される場合、その計算負荷は、リアルタイムのポーズ推定に失敗したままキーフレームでスパースポーズ出力を出力することを制限する。
対照的に、従来のスパース法は高い計算効率と高周波ポーズ出力を提供するが、高密度再構成の能力は欠如している。
このような制約に対処するために,スパースVOの計算効率とフィードフォワードモデルの高密度再構成機能を組み合わせた新しいフレームワークHyVGGT-VOを提案する。
私たちの知る限りでは、従来のVOフレームワークを最先端のフィードフォワードモデルであるVGGTと密に結合する最初の作業です。
具体的には、従来の光フローとVGGTトラッキングヘッドを動的に切り替える適応型ハイブリッドトラッキングフロントエンドを設計し、ロバスト性を確保する。
さらに、VOポーズとVGGT予測のスケールを協調的に洗練し、グローバルスケールの一貫性を確保する階層的な最適化フレームワークを導入する。
提案手法は,既存のVGGT法と比較して約5倍の高速化を実現し,室内のEuRoCデータセットでは平均軌道誤差を85%,屋外のKITTIベンチマークでは12%削減した。
私たちのコードは受理時に公開されます。
プロジェクトページ: https://geneta2580.github.io/HyVGGT-VO.io
関連論文リスト
- $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation [72.9912717963138]
リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
論文 参考訳(メタデータ) (2026-03-17T10:50:36Z) - Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - Geometric Autoencoder for Diffusion Models [16.699694260098948]
遅延拡散モデルは、高解像度の視覚生成において新しい最先端技術を確立した。
本稿では,意味的識別性,忠実性,コンパクト性を統一する原理的フレームワークであるGeometric Autoencoder (GAE)を提案する。
GAEはImageNet-1Kの256倍の256$ベンチマークで、80 epochsで1.82gFID、800 epochsで1.31gFIDに達した。
論文 参考訳(メタデータ) (2026-03-11T03:29:16Z) - Keyframe-Based Feed-Forward Visual Odometry [13.646685343885556]
現在の基礎モデルに基づく手法は、通常、生画像列を無差別に処理する。
本稿では、データ駆動方式で適応的な視覚ポリシーを導出するために強化学習を利用するフィードフォワードVO法を提案する。
実験により,提案手法は最新式フィードフォワードVO法よりも一貫した,実質的な改善が得られた。
論文 参考訳(メタデータ) (2026-01-22T14:45:42Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer [40.778996326009185]
初期核融合機構による多視点空間統合を行う最初のビジュアルローカライゼーションフレームワークを提案する。
我々のフレームワークはVGGTのバックボーン上に構築されており、多視点3D形状を符号化している。
本研究では,グローバルアテンションの2次複雑さを回避し,計算コストを削減する新しいスパースマスクアテンション戦略を提案する。
論文 参考訳(メタデータ) (2025-12-26T06:12:17Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Finetuning-Free Personalization of Text to Image Generation via Hypernetworks [15.129799519953139]
被写体画像から直接LoRA適応重量を予測するHypernetworksによる微調整不要なパーソナライゼーションを提案する。
提案手法はパーソナライズ性能を向上し,オープンカテゴリパーソナライズのためのスケーラブルで効果的な方向としてのハイパーネットワークの約束を強調する。
論文 参考訳(メタデータ) (2025-11-05T03:31:33Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。