論文の概要: DeepSeqSLAM: A Trainable CNN+RNN for Joint Global Description and
Sequence-based Place Recognition
- arxiv url: http://arxiv.org/abs/2011.08518v1
- Date: Tue, 17 Nov 2020 09:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 15:35:50.898327
- Title: DeepSeqSLAM: A Trainable CNN+RNN for Joint Global Description and
Sequence-based Place Recognition
- Title(参考訳): DeepSeqSLAM: グローバル記述とシーケンスに基づく位置認識のためのトレーニング可能なCNN+RNN
- Authors: Marvin Chanc\'an, Michael Milford
- Abstract要約: 経路の1つの画像列から視覚的および位置的表現を共同学習するための訓練可能なCNN+NNアーキテクチャであるDeepSeqSLAMを提案する。
我々は、NorlandとOxford RobotCarという2つの大きなベンチマークデータセットに対するアプローチを実証する。
私たちのアプローチでは、Delta Descriptorsの27% AUCとSeqSLAMの2% AUCと比較して72% AUCを越えられます。
- 参考スコア(独自算出の注目度): 23.54696982881734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence-based place recognition methods for all-weather navigation are
well-known for producing state-of-the-art results under challenging day-night
or summer-winter transitions. These systems, however, rely on complex
handcrafted heuristics for sequential matching - which are applied on top of a
pre-computed pairwise similarity matrix between reference and query image
sequences of a single route - to further reduce false-positive rates compared
to single-frame retrieval methods. As a result, performing multi-frame place
recognition can be extremely slow for deployment on autonomous vehicles or
evaluation on large datasets, and fail when using relatively short parameter
values such as a sequence length of 2 frames. In this paper, we propose
DeepSeqSLAM: a trainable CNN+RNN architecture for jointly learning visual and
positional representations from a single monocular image sequence of a route.
We demonstrate our approach on two large benchmark datasets, Nordland and
Oxford RobotCar - recorded over 728 km and 10 km routes, respectively, each
during 1 year with multiple seasons, weather, and lighting conditions. On
Nordland, we compare our method to two state-of-the-art sequence-based methods
across the entire route under summer-winter changes using a sequence length of
2 and show that our approach can get over 72% AUC compared to 27% AUC for Delta
Descriptors and 2% AUC for SeqSLAM; while drastically reducing the deployment
time from around 1 hour to 1 minute against both. The framework code and video
are available at https://mchancan.github.io/deepseqslam
- Abstract(参考訳): 全天候ナビゲーションのためのシーケンスに基づく位置認識手法は、夜間や夏季の冬の移行に挑戦して最先端の結果を生み出すことでよく知られている。
しかし、これらのシステムは、単一のルートの参照およびクエリ画像シーケンス間の事前計算されたペアワイズ類似性行列の上に適用される逐次マッチングのための複雑な手作りのヒューリスティックに依存しており、単一フレーム検索法と比較して偽陽性率をさらに削減している。
その結果、複数フレーム位置認識の実行は、自動運転車への展開や大規模データセットの評価において極めて遅く、2フレームのシーケンス長などの比較的短いパラメータ値を使用すると失敗する可能性がある。
本稿では,経路の単一分子画像列から視覚的および位置的表現を共同学習するための訓練可能なCNN+RNNアーキテクチャであるDeepSeqSLAMを提案する。
我々は,NorlandとOxford RobotCarという2つの大規模ベンチマークデータセットに対して,それぞれ728km以上のルートと10kmのルートを,複数の季節,天気,照明条件で1年毎に記録したアプローチを実証した。
北欧では, 夏冬の2回のシーケンス長を用いて, ルート全体にわたる2つの最先端シーケンスベースの手法を比較し, デルタディスクリプタの27% AUCとSeqSLAMの2% AUCと比較して, アプローチが72% AUCに到達し, 配置時間を約1時間から1分に短縮できることを示した。
フレームワークのコードとビデオはhttps://mchancan.github.io/deepseqslamで入手できる。
関連論文リスト
- RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation [46.659592045271125]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - SFNet: Faster and Accurate Semantic Segmentation via Semantic Flow [88.97790684009979]
性能を改善するための一般的な実践は、強力な意味表現を持つ高解像度の特徴写像を得ることである。
隣接レベルの特徴マップ間のテキストセマンティックフローを学習するためのフローアライメントモジュール(FAM)を提案する。
また,高分解能特徴写像と低分解能特徴写像を直接整列するGated Dual Flow Alignment Moduleを提案する。
論文 参考訳(メタデータ) (2022-07-10T08:25:47Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - DTWSSE: Data Augmentation with a Siamese Encoder for Time Series [8.019203034348083]
本稿では,DTWSSE という名前のサイムズエンコーダを用いた DTW に基づく合成マイノリティオーバーサンプリング手法を提案する。
時系列の距離を合理的に測定するために、有効な方法として検証されたDTWを距離計量として用いる。
エンコーダは、DTW隠れ空間からユークリッド深い特徴空間に時系列データをマッピングするニューラルネットワークであり、デコーダを使用して、深い特徴空間をDTW隠れ空間にマッピングする。
論文 参考訳(メタデータ) (2021-08-23T01:46:24Z) - Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition [24.70946979449572]
学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
論文 参考訳(メタデータ) (2021-03-02T22:57:43Z) - Understanding Image Retrieval Re-Ranking: A Graph Neural Network
Perspective [52.96911968968888]
本稿では,GNN(High-parallelism Graph Neural Network)関数として再ランク化が可能であることを示す。
market-1501データセットでは、1k40m gpuで89.2sから9.4msへのリランキング処理を高速化し、リアルタイムのポストプロセッシングを容易にする。
論文 参考訳(メタデータ) (2020-12-14T15:12:36Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - SUPER: A Novel Lane Detection System [26.417172945374364]
本研究では,Scene Understanding Physics-Enhanced Real-time (SUPER)アルゴリズムと呼ばれるリアルタイムレーン検出システムを提案する。
我々は、Cityscapes、Vistas、Apolloの異種データを用いて提案システムを訓練し、4つの完全に独立したデータセットのパフォーマンスを評価する。
予備試験の結果,Mobileyeと比較して実車線検出性能は有望であった。
論文 参考訳(メタデータ) (2020-05-14T21:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。