論文の概要: DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model
- arxiv url: http://arxiv.org/abs/2507.13145v1
- Date: Thu, 17 Jul 2025 14:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.52892
- Title: DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model
- Title(参考訳): DINO-VO: Visual Foundation Modelを活用した機能ベースのビジュアルオドメトリー
- Authors: Maulana Bisyir Azhari, David Hyunchul Shim,
- Abstract要約: 学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。
DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善した。
本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
- 参考スコア(独自算出の注目度): 2.163881720692685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based monocular visual odometry (VO) poses robustness, generalization, and efficiency challenges in robotics. Recent advances in visual foundation models, such as DINOv2, have improved robustness and generalization in various vision tasks, yet their integration in VO remains limited due to coarse feature granularity. In this paper, we present DINO-VO, a feature-based VO system leveraging DINOv2 visual foundation model for its sparse feature matching. To address the integration challenge, we propose a salient keypoints detector tailored to DINOv2's coarse features. Furthermore, we complement DINOv2's robust-semantic features with fine-grained geometric features, resulting in more localizable representations. Finally, a transformer-based matcher and differentiable pose estimation layer enable precise camera motion estimation by learning good matches. Against prior detector-descriptor networks like SuperPoint, DINO-VO demonstrates greater robustness in challenging environments. Furthermore, we show superior accuracy and generalization of the proposed feature descriptors against standalone DINOv2 coarse features. DINO-VO outperforms prior frame-to-frame VO methods on the TartanAir and KITTI datasets and is competitive on EuRoC dataset, while running efficiently at 72 FPS with less than 1GB of memory usage on a single GPU. Moreover, it performs competitively against Visual SLAM systems on outdoor driving scenarios, showcasing its generalization capabilities.
- Abstract(参考訳): 学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。
DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善しているが、それらのVOへの統合は、粗い特徴の粒度のために制限されている。
本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
そこで本研究では,DINOv2の粗い特徴に合わせた有意なキーポイント検出手法を提案する。
さらに、DINOv2の頑健なセマンティックな特徴をきめ細かい幾何学的特徴で補い、より局所化可能な表現をもたらす。
最後に、変圧器ベースの整形器と微分可能なポーズ推定層により、良好なマッチングを学習することで、正確なカメラモーション推定が可能となる。
SuperPointのような以前の検出器ディスクリプタネットワークに対して、DINO-VOは挑戦的な環境においてより堅牢性を示す。
さらに,DINOv2の粗い特徴に対して,提案した特徴記述子の精度と一般化が優れていることを示す。
DINO-VOは、TartanAirとKITTIデータセットのフレーム間VOメソッドよりも優れており、EuRoCデータセットと競合する。
さらに、屋外の運転シナリオにおいて、Visual SLAMシステムと競合して動作し、その一般化能力を示す。
関連論文リスト
- Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [61.753607285860944]
本稿では,AG-ReIDのためのSD-ReIDという2段階特徴学習フレームワークを提案する。
第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。
第2段階では、制御可能な条件で導かれる補完表現を学習するためにSDモデルを微調整する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文 参考訳(メタデータ) (2025-01-15T08:50:52Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in
Dynamic Environments [55.864869961717424]
視覚的・視覚的慣性オドメトリーシステムでは、動的シーンや純粋な回転の問題に対処することが通常困難である。
我々はこれらの問題に対処するためにRD-VIOと呼ばれる新しい視覚-慣性オドメトリーシステム(VIO)を設計する。
論文 参考訳(メタデータ) (2023-10-23T16:30:39Z) - An Efficient and Scalable Collection of Fly-inspired Voting Units for
Visual Place Recognition in Changing Environments [20.485491385050615]
ローオーバーヘッドのVPR技術は、ローエンドの安価なハードウェアを搭載したプラットフォームを可能にする。
我々のゴールは、外観変化と小さな視点変化に対する最先端のロバスト性を達成しつつ、極端なコンパクト性と効率のアルゴリズムを提供することである。
論文 参考訳(メタデータ) (2021-09-22T19:01:20Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Early Bird: Loop Closures from Opposing Viewpoints for
Perceptually-Aliased Indoor Environments [35.663671249819124]
本稿では,視点変化と知覚的エイリアスを同時に扱う新しい研究を提案する。
本稿では,VPRとSLAMの統合により,VPRの性能向上,特徴対応,グラフサブモジュールのポーズが著しく促進されることを示す。
知覚的エイリアス化や180度回転する極端な視点変化に拘わらず,最先端のパフォーマンスを実現するローカライズシステムについて初めて紹介する。
論文 参考訳(メタデータ) (2020-10-03T20:18:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。