論文の概要: DINO-VO: Learning Where to Focus for Enhanced State Estimation
- arxiv url: http://arxiv.org/abs/2604.04055v1
- Date: Sun, 05 Apr 2026 10:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.896349
- Title: DINO-VO: Learning Where to Focus for Enhanced State Estimation
- Title(参考訳): DINO-VO: より高い状態推定を目的とした学習場所
- Authors: Qi Chen, Guanghao Li, Sijia Hu, Xin Gao, Junpeng Ma, Xiangyang Xue, Jian Pu,
- Abstract要約: 本稿では,DINO Patch Visual Odometry(DINO-VO)について述べる。
DINO-VOは、エンドツーエンドパイプラインに可変適応パッチセレクタを組み込むことで、制限に対処する。
TartanAir、KITTI、Euroc、TUMのデータセットの実験により、DINO-VOは合成、屋内、屋外の環境に強い一般化を示すことが示された。
- 参考スコア(独自算出の注目度): 44.599349414955014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DINO Patch Visual Odometry (DINO-VO), an end-to-end monocular visual odometry system with strong scene generalization. Current Visual Odometry (VO) systems often rely on heuristic feature extraction strategies, which can degrade accuracy and robustness, particularly in large-scale outdoor environments. DINO-VO addresses these limitations by incorporating a differentiable adaptive patch selector into the end-to-end pipeline, improving the quality of extracted patches and enhancing generalization across diverse datasets. Additionally, our system integrates a multi-task feature extraction module with a differentiable bundle adjustment (BA) module that leverages inverse depth priors, enabling the system to learn and utilize appearance and geometric information effectively. This integration bridges the gap between feature learning and state estimation. Extensive experiments on the TartanAir, KITTI, Euroc, and TUM datasets demonstrate that DINO-VO exhibits strong generalization across synthetic, indoor, and outdoor environments, achieving state-of-the-art tracking accuracy.
- Abstract(参考訳): 本稿では,DINO Patch Visual Odometry (DINO-VO)について述べる。
現在のビジュアルオドメトリー(VO)システムは、しばしばヒューリスティックな特徴抽出戦略に依存しており、特に大規模屋外環境では、精度と堅牢性を低下させることができる。
DINO-VOは、エンドツーエンドパイプラインに可変適応パッチセレクタを組み込むことで、これらの制限に対処し、抽出されたパッチの品質を改善し、多様なデータセットをまたいだ一般化を強化する。
さらに,マルチタスクの特徴抽出モジュールと,逆深さの事前情報を活用する可変バンドル調整(BA)モジュールを統合し,外観や幾何学的情報を効果的に学習・活用する。
この統合は、特徴学習と状態推定のギャップを埋める。
TartanAir、KITTI、Euroc、TUMデータセットの大規模な実験により、DINO-VOは、合成、室内、屋外の環境にわたって強力な一般化を示し、最先端の追跡精度を達成している。
関連論文リスト
- Enhancing Eye Feature Estimation from Event Data Streams through Adaptive Inference State Space Modeling [68.1289208938377]
イベントベースのデータストリームから目の特徴抽出を効率的かつ低エネルギーで行うことができる。
本稿では,特徴抽出のための新しいアーキテクチャである強調型推論状態空間モデル(AISSM)を紹介する。
また、トレーニング効率を向上させる新しい学習手法を開発・評価する。
論文 参考訳(メタデータ) (2026-03-14T18:47:08Z) - DiveUp: Learning Feature Upsampling from Diverse Vision Foundation Models [11.659303031631723]
DiveUpは、マルチVFMリレーショナルガイダンスを導入することで、単一モデル依存から脱却する新しいフレームワークである。
本稿では,局所的中心-質量場 (COM) として定式化され,固有幾何学的構造を抽出する普遍的関係特徴表現を提案する。
DiveUpは統一されたエンコーダに依存しないフレームワークである。
論文 参考訳(メタデータ) (2026-03-13T20:20:22Z) - VMF-GOS: Geometry-guided virtual Outlier Synthesis for Long-Tailed OOD Detection [10.895746797423223]
我々は、超球面上のvon Mises-Fisher(vMF)分布を用いて統計特性をモデル化する幾何学誘導仮想外乱合成(GOS)戦略を導入する。
具体的には、特徴空間に低線状アニュラスを配置し、この領域で仮想外れ値の方向サンプリングを行う。
CIFAR-LTなどのベンチマーク実験により,本手法は外部実画像を用いたソタ手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-05T07:58:12Z) - Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model [2.163881720692685]
学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。
DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善した。
本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
論文 参考訳(メタデータ) (2025-07-17T14:09:34Z) - BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文 参考訳(メタデータ) (2025-01-15T08:50:52Z) - LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [53.5449912019877]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Robust Visual Odometry Using Position-Aware Flow and Geometric Bundle
Adjustment [16.04240592057438]
まず,位置認識機構上に構築された新しい光フローネットワーク(PANet)を提案する。
そこで本研究では,エゴモーション学習のための典型的なネットワークを使わずに,深度,光学的流れ,エゴモーションを共同で推定するシステムを提案する。
実験により,提案システムは深度,流れ,VO推定の点で,他の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-22T12:05:27Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。