論文の概要: BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module
- arxiv url: http://arxiv.org/abs/2501.08659v2
- Date: Thu, 16 Jan 2025 03:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:25.707657
- Title: BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module
- Title(参考訳): BRIGHT-VO:多モードリファインメントモジュールを用いた視覚オドメトリー用輝度誘導ハイブリッドトランス
- Authors: Dongzhihan Wang, Yang Yang, Liang Xu,
- Abstract要約: 視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
- 参考スコア(独自算出の注目度): 11.898515581215708
- License:
- Abstract: Visual odometry (VO) plays a crucial role in autonomous driving, robotic navigation, and other related tasks by estimating the position and orientation of a camera based on visual input. Significant progress has been made in data-driven VO methods, particularly those leveraging deep learning techniques to extract image features and estimate camera poses. However, these methods often struggle in low-light conditions because of the reduced visibility of features and the increased difficulty of matching keypoints. To address this limitation, we introduce BrightVO, a novel VO model based on Transformer architecture, which not only performs front-end visual feature extraction, but also incorporates a multi-modality refinement module in the back-end that integrates Inertial Measurement Unit (IMU) data. Using pose graph optimization, this module iteratively refines pose estimates to reduce errors and improve both accuracy and robustness. Furthermore, we create a synthetic low-light dataset, KiC4R, which includes a variety of lighting conditions to facilitate the training and evaluation of VO frameworks in challenging environments. Experimental results demonstrate that BrightVO achieves state-of-the-art performance on both the KiC4R dataset and the KITTI benchmarks. Specifically, it provides an average improvement of 20% in pose estimation accuracy in normal outdoor environments and 259% in low-light conditions, outperforming existing methods. For widespread use and further development, the research work is fully open-source at https://github.com/Anastasiawd/BrightVO.
- Abstract(参考訳): ビジュアルオドメトリー(VO)は、視覚入力に基づいてカメラの位置と方向を推定することにより、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
データ駆動型VO手法、特に深層学習技術を利用して画像の特徴を抽出し、カメラのポーズを推定する手法において、顕著な進歩が見られた。
しかし、これらの手法は、特徴の可視性が低下し、キーポイントのマッチングが困難になるため、低照度条件でしばしば苦労する。
この制限に対処するために,Transformerアーキテクチャに基づく新しいVOモデルであるBrightVOを導入する。これは,フロントエンドの視覚的特徴抽出を行うだけでなく,IMU(Inertial Measurement Unit)データを統合したバックエンドにマルチモーダルリファインメントモジュールを組み込む。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
さらに、様々な照明条件を含む合成低照度データセットKiC4Rを作成し、課題のある環境でのVOフレームワークのトレーニングと評価を容易にする。
実験の結果,BrightVOはKiC4RデータセットとKITTIベンチマークの両方で最先端の性能を達成できた。
具体的には、通常の屋外環境でのポーズ推定精度が平均20%向上し、低照度環境では259%向上し、既存の手法を上回っている。
幅広い利用とさらなる開発のために、研究はhttps://github.com/Anastasiawd/BrightVOで完全にオープンソース化されている。
関連論文リスト
- LIR-LIVO: A Lightweight,Robust LiDAR/Vision/Inertial Odometry with Illumination-Resilient Deep Features [8.095827028713684]
提案手法は、深層学習に基づく照明耐性特徴とLIVO(LiDAR-Inertial-Visual Odometry)を利用する。
LIR-LIVOは、高い計算コストで最先端(SOTA)の精度と堅牢性を達成する。
論文 参考訳(メタデータ) (2025-02-12T05:28:10Z) - XR-VIO: High-precision Visual Inertial Odometry with Fast Initialization for XR Applications [34.2082611110639]
本稿では,視覚慣性オドメトリー(VIO)に対する新しいアプローチとして,初期化と特徴マッチングモジュールについて述べる。
ジャイロスコープの既存の方法は、運動からの視覚構造(SfM)の安定性の低下や、膨大な数のパラメータの同時解決に悩まされることが多い。
測定値の密結合により,視覚的SfMの堅牢性と精度が向上する。
特徴マッチングに関しては,光学フローとディスクリプタベースマッチングを組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T12:17:51Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Efficient Camera Exposure Control for Visual Odometry via Deep Reinforcement Learning [10.886819238167286]
本研究は、露光制御のためのエージェントの訓練に深層強化学習フレームワークを用いる。
トレーニングプロセスを容易にするために,軽量なイメージシミュレータを開発した。
VOシステムを強化するために異なるレベルの報酬関数が作成される。
論文 参考訳(メタデータ) (2024-08-30T04:37:52Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。