論文の概要: Self-localization on a 3D map by fusing global and local features from a monocular camera
- arxiv url: http://arxiv.org/abs/2510.26170v1
- Date: Thu, 30 Oct 2025 06:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.677971
- Title: Self-localization on a 3D map by fusing global and local features from a monocular camera
- Title(参考訳): モノクラーカメラからのグローバル・ローカル特徴の融合による3次元地図上の自己局在化
- Authors: Satoshi Kikuch, Masaya Kato, Tsuyoshi Tasaki,
- Abstract要約: カメラに基づく自己局在化は、しばしば、近くのピクセルによって計算される局所的な特徴を抽出できる畳み込みニューラルネットワーク(CNN)を使用する。
本研究では,CNNとVision Transformerを組み合わせることで,画像全体のパッチの関係を示すグローバルな特徴を抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-localization on a 3D map by using an inexpensive monocular camera is required to realize autonomous driving. Self-localization based on a camera often uses a convolutional neural network (CNN) that can extract local features that are calculated by nearby pixels. However, when dynamic obstacles, such as people, are present, CNN does not work well. This study proposes a new method combining CNN with Vision Transformer, which excels at extracting global features that show the relationship of patches on whole image. Experimental results showed that, compared to the state-of-the-art method (SOTA), the accuracy improvement rate in a CG dataset with dynamic obstacles is 1.5 times higher than that without dynamic obstacles. Moreover, the self-localization error of our method is 20.1% smaller than that of SOTA on public datasets. Additionally, our robot using our method can localize itself with 7.51cm error on average, which is more accurate than SOTA.
- Abstract(参考訳): 自律走行を実現するためには,安価な単眼カメラを用いて3次元地図上での自己位置決めが必要である。
カメラに基づく自己局在化は、しばしば、近くのピクセルによって計算される局所的な特徴を抽出できる畳み込みニューラルネットワーク(CNN)を使用する。
しかし、人間のような動的な障害が存在する場合、CNNはうまく機能しない。
本研究では,CNNとVision Transformerを組み合わせることで,画像全体のパッチの関係を示すグローバルな特徴を抽出する手法を提案する。
その結果, 動的障害物を伴わないCGデータセットの精度向上率は, 最先端手法(SOTA)と比較して1.5倍であった。
さらに,提案手法の自己局在誤差は,公開データセット上でのSOTAよりも20.1%小さい。
さらに,本手法を用いたロボットは,SOTAよりも精度が高く,平均7.51cmの誤差で位置決めできる。
関連論文リスト
- Real World Robotic Exploration using Deep Neural Networks Trained in Photorealistic Reconstructed Environments [1.3053649021965599]
視覚情報(RGB画像)からロボットのポーズを決定するための既存のディープニューラルネットワークアプローチを変更する。
フォトグラムデータを使用してポーズラベル付きデータセットを生成し、上記のモデルをローカル環境でトレーニングすることができる。
この訓練されたモデルはナビゲーションアルゴリズムの基礎を形成し、TurtleBot上でリアルタイムでテストされる。
論文 参考訳(メタデータ) (2025-09-12T00:03:04Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - TransGeo: Transformer Is All You Need for Cross-view Image
Geo-localization [81.70547404891099]
クロスビュー画像のジオローカライゼーションのためのCNNに基づく手法は,大域的相関をモデル化できない。
本稿では,これらの制約に対処するためのトランスジェオ (TransGeo) を提案する。
TransGeoは、都市と農村の両方のデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-03-31T21:19:41Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Monocular Camera Localization for Automated Vehicles Using Image
Retrieval [8.594652891734288]
本研究では,1台のカメラを用いて,自動運転車の現在位置と方向角をリアルタイムで検出する問題に対処する。
リアルタイムにLiDARと高精細3Dマップを必要とする手法と比較して,提案手法はスケーラブルで計算効率がよい。
論文 参考訳(メタデータ) (2021-09-13T20:12:42Z) - CoordiNet: uncertainty-aware pose regressor for reliable vehicle
localization [3.4386226615580107]
ロボット工学および自動運転車応用のためのニューラルネットワークを用いた視覚カメラのローカライゼーションについて検討する。
私たちのソリューションは、単一の画像から直接カメラポーズを予測するCNNベースのアルゴリズムです。
提案手法は,29cmの中央値誤差を1.9kmループで達成し,信頼性の高い代替案であることを示す。
論文 参考訳(メタデータ) (2021-03-19T13:32:40Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。