Fugu-MT 論文翻訳(概要): Improving Visual Place Recognition Based Robot Navigation By Verifying Localization Estimates

論文の概要: Improving Visual Place Recognition Based Robot Navigation By Verifying Localization Estimates

arxiv url: http://arxiv.org/abs/2407.08162v2
Date: Tue, 19 Nov 2024 03:30:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.471576
Title: Improving Visual Place Recognition Based Robot Navigation By Verifying Localization Estimates
Title（参考訳）: 位置推定による視覚的位置認識に基づくロボットナビゲーションの改善
Authors: Owen Claxton, Connor Malone, Helen Carson, Jason Ford, Gabe Bolton, Iman Shames, Michael Milford,
Abstract要約: 本研究では,MLP(Multi-Layer Perceptron)整合性モニタを提案する。パフォーマンスと一般化性の向上、環境ごとのトレーニングの削除、手動のチューニング要件の削減などがその例だ。提案手法を実世界の大規模な実験で検証した。
参考スコア（独自算出の注目度）: 14.354164363224529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Place Recognition (VPR) systems often have imperfect performance, affecting the `integrity' of position estimates and subsequent robot navigation decisions. Previously, SVM classifiers have been used to monitor VPR integrity. This research introduces a novel Multi-Layer Perceptron (MLP) integrity monitor which demonstrates improved performance and generalizability, removing per-environment training and reducing manual tuning requirements. We test our proposed system in extensive real-world experiments, presenting two real-time integrity-based VPR verification methods: a single-query rejection method for robot navigation to a goal zone (Experiment 1); and a history-of-queries method that takes a best, verified, match from its recent trajectory and uses an odometer to extrapolate a current position estimate (Experiment 2). Noteworthy results for Experiment 1 include a decrease in aggregate mean along-track goal error from ~9.8m to ~3.1m, and an increase in the aggregate rate of successful mission completion from ~41% to ~55%. Experiment 2 showed a decrease in aggregate mean along-track localization error from ~2.0m to ~0.5m, and an increase in the aggregate localization precision from ~97% to ~99%. Overall, our results demonstrate the practical usefulness of a VPR integrity monitor in real-world robotics to improve VPR localization and consequent navigation performance.
Abstract（参考訳）: 視覚的位置認識(VPR)システムは、しばしば不完全な性能を持ち、位置推定の「積分」とその後のロボットナビゲーション決定に影響を及ぼす。これまで、SVM分類器はVPRの整合性を監視するために用いられてきた。本研究では,マルチレイヤ・パーセプトロン(MLP)整合性モニタを導入し,性能と一般化性の向上,環境ごとのトレーニングの削除,手動のチューニング要求の低減を実現した。本研究では,ロボットナビゲーションを目標ゾーンに単一クエリで拒否する手法(実験1)と,最新の軌道と一致した最良かつ検証可能な履歴クエリ手法(実験2)と,オドメーターを用いて現在の位置推定を外挿する手法(実験2)の2つの実世界実験において,提案システムの有効性を検証した。実験1の注目すべき結果は、軌道上の目標誤差の総和平均が9.8mから3.1mに減少し、ミッション完了の成功率は41%から55%に増加したことである。実験2では, 累積位置推定誤差は ~2.0m から ~0.5m に減少し, 累積位置推定精度は ~97% から ~99% に向上した。本研究は,実世界のロボット工学において,VPRの局所化とナビゲーション性能を向上させるために,VPR整合性モニタの実用的有用性を示すものである。

関連論文リスト

Adversarial Attacks and Detection in Visual Place Recognition for Safer Robot Navigation [16.01119279073898]
スタンドアロンの視覚的位置認識(VPR)システムは、よく設計された敵攻撃に対する防御がほとんどない。本稿では、他の知覚タスクに共通する4つの敵攻撃と、VPR局所化性能に対する4つの新しいVPR特異的攻撃の効果を広範囲に分析する。
論文参考訳（メタデータ） (2025-06-19T03:19:21Z)
EmbodiedPlace: Learning Mixture-of-Features with Embodied Constraints for Visual Place Recognition [9.75969669445091]
視覚的位置認識(VPR)は、コンピュータビジョンにおけるシーン指向の画像検索問題である。そこで本稿では,Mixture-of-Features (MoF) アプローチを具体的制約下で適用することにより,グローバルな特徴を洗練する,新しい簡易なリグレード手法を提案する。
論文参考訳（メタデータ） (2025-06-16T06:40:12Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision [3.671692919685993]
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
論文参考訳（メタデータ） (2025-03-11T00:38:54Z)
DiRecNetV2: A Transformer-Enhanced Network for Aerial Disaster Recognition [4.678150356894011]
災害評価における航空画像処理のための人工知能(AI)モデルと無人航空機の統合には、例外的な精度、計算効率、リアルタイム処理能力が必要である。伝統的に、畳み込みニューラルネットワーク(CNN)は局所的特徴抽出の効率を示すが、大域的文脈解釈の可能性によって制限される。視覚変換器(ViT)は、注意機構を用いることで、グローバルな文脈解釈の改善を約束するが、それでもUAVベースの災害対応アプリケーションでは未検討である。
論文参考訳（メタデータ） (2024-10-17T15:25:13Z)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-02-22T12:55:01Z)
CLIPping the Deception: Adapting Vision-Language Models for Universal Deepfake Detection [3.849401956130233]
広汎な深度検出のための最近の適応手法と組み合わせた事前学習型視覚言語モデル(VLM)の有効性について検討する。ディープフェイク検出にCLIPを適用するために、単一のデータセット(ProGAN)のみを使用します。シンプルで軽量なPrompt Tuningベースの適応戦略は、以前のSOTAアプローチよりも5.01% mAPと6.61%の精度で優れている。
論文参考訳（メタデータ） (2024-02-20T11:26:42Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
Tightly-coupled Visual-DVL-Inertial Odometry for Robot-based Ice-water Boundary Exploration [8.555466536537292]
ローカライズ精度を高めるために,マルチセンサ融合フレームワークを提案する。画像、ドップラー速度ログ(DVL)、慣性測定ユニット(IMU)、圧力センサーが統合されている。提案手法は,凍結氷下のフィールドで収集したデータセットを用いて検証した。
論文参考訳（メタデータ） (2023-03-29T20:16:39Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Visual-tactile sensing for Real-time liquid Volume Estimation in Grasping [58.50342759993186]
変形性容器内の液体をリアルタイムに推定するためのビジュオ触覚モデルを提案する。我々は、RGBカメラからの生の視覚入力と、特定の触覚センサーからの触覚手がかりの2つの感覚モードを融合する。ロボットシステムは、推定モデルに基づいて、リアルタイムで適切に制御され、調整される。
論文参考訳（メタデータ） (2022-02-23T13:38:31Z)
Improved YOLOv5 network for real-time multi-scale traffic sign detection [4.5598087061051755]
本稿では,アダプティブアテンションモジュール (AAM) と機能拡張モジュール (FEM) を利用して特徴マップ生成の過程での情報損失を低減する機能ピラミッドモデル AF-FPN を提案する。 YOLOv5の本来の特徴ピラミッドネットワークをAF-FPNに置き換え、YOLOv5ネットワークのマルチスケールターゲットの検出性能を向上させる。
論文参考訳（メタデータ） (2021-12-16T11:02:12Z)
FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文参考訳（メタデータ） (2021-07-07T13:39:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。