論文の概要: Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition
- arxiv url: http://arxiv.org/abs/2103.02074v1
- Date: Tue, 2 Mar 2021 22:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 14:23:09.230795
- Title: Sequential Place Learning: Heuristic-Free High-Performance Long-Term
Place Recognition
- Title(参考訳): 逐次的位置学習 : ヒューリスティックフリー高性能長期位置認識
- Authors: Marvin Chanc\'an, Michael Milford
- Abstract要約: 学習ベースのCNN+LSTMアーキテクチャを開発し、バックプロパゲーションを通じてトレーニングし、視点および外観不変の場所認識を実現します。
我々のモデルは、新しい最先端パフォーマンス標準を設定しながら、15の古典的手法より優れています。
さらに, SPL は 729 km の経路において, 従来の方法よりも 70 倍高速に展開可能であることを示す。
- 参考スコア(独自算出の注目度): 24.70946979449572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential matching using hand-crafted heuristics has been standard practice
in route-based place recognition for enhancing pairwise similarity results for
nearly a decade. However, precision-recall performance of these algorithms
dramatically degrades when searching on short temporal window (TW) lengths,
while demanding high compute and storage costs on large robotic datasets for
autonomous navigation research. Here, influenced by biological systems that
robustly navigate spacetime scales even without vision, we develop a joint
visual and positional representation learning technique, via a sequential
process, and design a learning-based CNN+LSTM architecture, trainable via
backpropagation through time, for viewpoint- and appearance-invariant place
recognition. Our approach, Sequential Place Learning (SPL), is based on a CNN
function that visually encodes an environment from a single traversal, thus
reducing storage capacity, while an LSTM temporally fuses each visual embedding
with corresponding positional data -- obtained from any source of motion
estimation -- for direct sequential inference. Contrary to classical two-stage
pipelines, e.g., match-then-temporally-filter, our network directly eliminates
false-positive rates while jointly learning sequence matching from a single
monocular image sequence, even using short TWs. Hence, we demonstrate that our
model outperforms 15 classical methods while setting new state-of-the-art
performance standards on 4 challenging benchmark datasets, where one of them
can be considered solved with recall rates of 100% at 100% precision, correctly
matching all places under extreme sunlight-darkness changes. In addition, we
show that SPL can be up to 70x faster to deploy than classical methods on a 729
km route comprising 35,768 consecutive frames. Extensive experiments
demonstrate the... Baseline code available at
https://github.com/mchancan/deepseqslam
- Abstract(参考訳): 手作りのヒューリスティックを用いた逐次マッチングは、10年近くにわたってペアワイズ類似性向上のためのルートベースの位置認識において標準的な手法である。
しかし、これらのアルゴリズムの精度リコール性能は、短時間ウィンドウ(TW)の長さを検索する際に劇的に低下し、自律ナビゲーション研究のために大規模なロボットデータセットに高い計算コストとストレージコストを要求します。
ここでは、視覚なしでも時空スケールを強力にナビゲートする生物学的システムの影響を受けて、連続プロセスを介して共同視覚および位置表現学習技術を開発し、バックプロパゲーションを介して訓練可能な学習ベースのCNN+LSTMアーキテクチャを設計、視点および外観不変の場所認識のために。
我々のアプローチであるシーケンシャル・プレース・ラーニング(SPL)は、CNN関数をベースとして、単一のトラバーサルから環境を視覚的に符号化し、ストレージ容量を削減し、LSTMは各視覚埋め込みを、対応する位置データ(動き推定のソースから得られる)と時間的に融合させて直接逐次推論を行う。
従来の2段階のパイプライン、例えばmatch-then-temporally-filterとは対照的に、ネットワークは、短いtwを使用しても単一の単眼画像シーケンスから一致したシーケンスを共同学習しながら、偽陽性率を直接排除する。
したがって、我々のモデルは、4つの挑戦的ベンチマークデータセット上で新しい最先端性能基準を設定しながら15の古典的手法より優れており、そのうちの1つは100%の精度でリコールレートで解ける。
さらに,SPLは,35,768連続フレームからなる729kmの経路において,従来の方法よりも最大70倍高速に展開可能であることを示す。
ベースラインコードはhttps://github.com/mchancan/deepseqslamで入手できます。
関連論文リスト
- SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。
トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文 参考訳(メタデータ) (2024-11-20T10:23:21Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - A Faster, Lighter and Stronger Deep Learning-Based Approach for Place
Recognition [7.9400442516053475]
より速く、より軽く、より強力なアプローチを提案し、より少ないパラメータでモデルを生成でき、推論段階での時間を短縮できる。
本稿では,RepVG-liteをアーキテクチャのバックボーンネットワークとして設計する。
提案システムは,Patch-NetVLADの14倍,理論的FLOPの6.8倍,特徴抽出と特徴マッチングの21倍,33倍の高速化を実現している。
論文 参考訳(メタデータ) (2022-11-27T15:46:53Z) - Differentiable Point-Based Radiance Fields for Efficient View Synthesis [57.56579501055479]
本稿では,効率的な新規ビュー合成のための微分可能レンダリングアルゴリズムを提案する。
我々の手法は、トレーニングと推論の両方において、NeRFよりも最大300倍高速である。
ダイナミックなシーンでは,STNeRFよりも2桁早く,ほぼインタラクティブなレートでレンダリングを行う。
論文 参考訳(メタデータ) (2022-05-28T04:36:13Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - DeepSeqSLAM: A Trainable CNN+RNN for Joint Global Description and
Sequence-based Place Recognition [23.54696982881734]
経路の1つの画像列から視覚的および位置的表現を共同学習するための訓練可能なCNN+NNアーキテクチャであるDeepSeqSLAMを提案する。
我々は、NorlandとOxford RobotCarという2つの大きなベンチマークデータセットに対するアプローチを実証する。
私たちのアプローチでは、Delta Descriptorsの27% AUCとSeqSLAMの2% AUCと比較して72% AUCを越えられます。
論文 参考訳(メタデータ) (2020-11-17T09:14:02Z) - Exploiting the ConvLSTM: Human Action Recognition using Raw Depth
Video-Based Recurrent Neural Networks [0.0]
本稿では,畳み込み長短期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案し,比較する。
提案モデルは,最先端手法と比較して,計算コストの低い競合認識精度を実現する。
論文 参考訳(メタデータ) (2020-06-13T23:35:59Z) - SUPER: A Novel Lane Detection System [26.417172945374364]
本研究では,Scene Understanding Physics-Enhanced Real-time (SUPER)アルゴリズムと呼ばれるリアルタイムレーン検出システムを提案する。
我々は、Cityscapes、Vistas、Apolloの異種データを用いて提案システムを訓練し、4つの完全に独立したデータセットのパフォーマンスを評価する。
予備試験の結果,Mobileyeと比較して実車線検出性能は有望であった。
論文 参考訳(メタデータ) (2020-05-14T21:40:39Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。