論文の概要: ViBA: Implicit Bundle Adjustment with Geometric and Temporal Consistency for Robust Visual Matching
- arxiv url: http://arxiv.org/abs/2604.03377v1
- Date: Fri, 03 Apr 2026 18:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.544784
- Title: ViBA: Implicit Bundle Adjustment with Geometric and Temporal Consistency for Robust Visual Matching
- Title(参考訳): ViBA:ロバストな視覚マッチングのための幾何学的・時間的整合性を考慮した暗黙のバンドル調整
- Authors: Xiaoji Niu, Yuqing Wang, Yan Wang, Hailiang Tang, Tisheng Zhang,
- Abstract要約: ViBAは幾何学的最適化と特徴学習を統合し、制約のないビデオストリーム上でのオンライントレーニングを継続する。
SuperPoint+SuperGlueのような最先端の手法と比較して、ViBAは平均絶対翻訳誤差(ATE)を12-18%削減する。
目に見えない配列で評価すると、ViBAは90%以上の局所化精度を保持し、堅牢な一般化を示す。
- 参考スコア(独自算出の注目度): 25.60021366953063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing image keypoint detection and description methods rely on datasets with accurate pose and depth annotations, limiting scalability and generalization, and often degrading navigation and localization performance. We propose ViBA, a sustainable learning framework that integrates geometric optimization with feature learning for continuous online training on unconstrained video streams. Embedded in a standard visual odometry pipeline, it consists of an implicitly differentiable geometric residual framework: (i) an initial tracking network for inter-frame correspondences, (ii) depth-based outlier filtering, and (iii) differentiable global bundle adjustment that jointly refines camera poses and feature positions by minimizing reprojection errors. By combining geometric consistency from BA with long-term temporal consistency across frames, ViBA enforces stable and accurate feature representations. We evaluate ViBA on EuRoC and UMA datasets. Compared with state-of-the-art methods such as SuperPoint+SuperGlue, ALIKED, and LightGlue, ViBA reduces mean absolute translation error (ATE) by 12-18% and absolute rotation error (ARE) by 5-10% across sequences, while maintaining real-time inference speeds (FPS 36-91). When evaluated on unseen sequences, it retains over 90% localization accuracy, demonstrating robust generalization. These results show that ViBA supports continuous online learning with geometric and temporal consistency, consistently improving navigation and localization in real-world scenarios.
- Abstract(参考訳): 既存の画像キーポイントの検出と記述方法は、正確なポーズと深さアノテーション、スケーラビリティと一般化の制限、ナビゲーションとローカライゼーションのパフォーマンスの低下といったデータセットに依存している。
制約のないビデオストリーム上での連続オンライントレーニングのために,幾何最適化と特徴学習を統合した持続可能な学習フレームワークであるViBAを提案する。
標準的なビジュアル・オドメトリー・パイプラインに埋め込まれており、暗黙的に異なる幾何学的残留フレームワークから構成されている。
i) フレーム間通信のための初期追跡ネットワーク
(二)奥行きに基づく外乱フィルタリング、及び
三 再投射誤差の最小化により、カメラのポーズと特徴位置を共同で洗練するグローバルバンドル調整。
BAからの幾何的一貫性とフレーム間の長期的な時間的一貫性を組み合わせることで、ViBAは安定かつ正確な特徴表現を強制する。
我々は,EuRoCおよびUMAデータセット上でのViBAの評価を行った。
SuperPoint+SuperGlue、ALIKED、LightGlueといった最先端の手法と比較して、ViBAは平均絶対翻訳誤差(ATE)を12-18%、絶対回転誤差(ARE)を5-10%削減し、リアルタイム推論速度(FPS 36-91)を維持している。
目に見えない配列で評価すると、90%以上の局所化精度が保たれ、堅牢な一般化が証明される。
これらの結果から,ViBAは幾何学的・時間的整合性を持った連続的なオンライン学習をサポートし,現実のシナリオにおけるナビゲーションとローカライゼーションを継続的に改善していることがわかった。
関連論文リスト
- S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - Depth Completion as Parameter-Efficient Test-Time Adaptation [66.72360181325877]
CAPAはパラメータ効率のよいテスト時間最適化フレームワークであり、深度補完のために事前訓練された3D基礎モデル(FM)を適用する。
ビデオの場合、CAPAはシーケンスレベルのパラメータ共有を導入し、時間的相関を利用して、堅牢性を改善し、複数フレームの一貫性を強制するために、すべてのフレームを共同で適用する。
論文 参考訳(メタデータ) (2026-02-16T13:53:23Z) - GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - OpenNavMap: Structure-Free Topometric Mapping via Large-Scale Collaborative Localization [12.686154192361913]
OpenNavMapは、オンデマンドの再構築に3D幾何学的基礎モデルを活用する軽量で構造のないトポロジカルシステムである。
提案手法は,動的プログラミングに基づくシーケンスマッチング,幾何検証,信頼性校正最適化を,頑健で粗いサブマップアライメントに統一する。
Map-Freeベンチマークの評価は、平均翻訳誤差0.62mを達成し、構造移動ベースラインと回帰ベースラインよりも優れた精度を示す。
論文 参考訳(メタデータ) (2026-01-18T07:24:46Z) - Reloc-VGGT: Visual Re-localization with Geometry Grounded Transformer [40.778996326009185]
初期核融合機構による多視点空間統合を行う最初のビジュアルローカライゼーションフレームワークを提案する。
我々のフレームワークはVGGTのバックボーン上に構築されており、多視点3D形状を符号化している。
本研究では,グローバルアテンションの2次複雑さを回避し,計算コストを削減する新しいスパースマスクアテンション戦略を提案する。
論文 参考訳(メタデータ) (2025-12-26T06:12:17Z) - Bundle Adjustment in the Eager Mode [14.13835018035969]
高効率でPyTorchとシームレスに統合された、熱心に動くBAライブラリを導入する。
我々のアプローチには、nth2次最適化のために設計されたGPUアクセラレーション、微分可能、スパース演算、リー群およびリー代数演算、線形解法が含まれる。
提案手法は,GTSAM,g$2$o,Ceresと比較して平均18.5$times$,22$times$,23$times$の平均高速化を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:59:29Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。