論文の概要: Learning Sequential Descriptors for Sequence-based Visual Place
Recognition
- arxiv url: http://arxiv.org/abs/2207.03868v1
- Date: Fri, 8 Jul 2022 12:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:06:00.792081
- Title: Learning Sequential Descriptors for Sequence-based Visual Place
Recognition
- Title(参考訳): シーケンスベース視覚位置認識のための逐次ディスクリプタの学習
- Authors: Riccardo Mereu, Gabriele Trivigno, Gabriele Berton, Carlo Masone,
Barbara Caputo
- Abstract要約: ロボット工学において、視覚的位置認識(Visual Place Recognition)とは、ロボットの現在位置の仮説を生成するためのビデオストリームとして入力される連続的なプロセスである。
本研究は、逐次記述子を用いた技法の詳細な分類法を提案し、個々の画像から情報を融合するための異なるメカニズムを強調した。
- 参考スコア(独自算出の注目度): 14.738954189759156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robotics, Visual Place Recognition is a continuous process that receives
as input a video stream to produce a hypothesis of the robot's current position
within a map of known places. This task requires robust, scalable, and
efficient techniques for real applications. This work proposes a detailed
taxonomy of techniques using sequential descriptors, highlighting different
mechanism to fuse the information from the individual images. This
categorization is supported by a complete benchmark of experimental results
that provides evidence on the strengths and weaknesses of these different
architectural choices. In comparison to existing sequential descriptors
methods, we further investigate the viability of Transformers instead of CNN
backbones, and we propose a new ad-hoc sequence-level aggregator called
SeqVLAD, which outperforms prior state of the art on different datasets. The
code is available at https://github.com/vandal-vpr/vg-transformers.
- Abstract(参考訳): ロボット工学において、視覚的位置認識(Visual Place Recognition)は、ビデオストリームを入力として受け取り、既知の場所の地図内のロボットの現在位置の仮説を生成する連続的なプロセスである。
このタスクには、実アプリケーションに堅牢でスケーラブルで効率的なテクニックが必要です。
本研究は、逐次記述子を用いた技法の詳細な分類法を提案し、個々の画像から情報を融合するための異なるメカニズムを強調した。
この分類は、これらの異なるアーキテクチャ選択の長所と短所を示す実験結果の完全なベンチマークによって支持されている。
既存のシーケンシャルディスクリプタ法と比較して,CNNのバックボーンの代わりにトランスフォーマーの生存可能性をさらに検討し,異なるデータセット上での先行状態を向上するSeqVLADという,アドホックなシーケンスレベルのアグリゲータを提案する。
コードはhttps://github.com/vandal-vpr/vg-transformersで入手できる。
関連論文リスト
- EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - Efficient Video Transformers with Spatial-Temporal Token Selection [68.27784654734396]
入力ビデオサンプルに条件付き時間的・空間的両方のトークンを動的に選択するトークン選択フレームワークSTTSを提案する。
我々のフレームワークは、20%の計算を必要としながら、同様の結果を得る。
論文 参考訳(メタデータ) (2021-11-23T00:35:58Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - A cellular automata approach to local patterns for texture recognition [3.42658286826597]
本稿では, セルオートマトンによる複雑な物体の表現力と, テクスチャ解析における局所記述子の既知の有効性を組み合わせたテクスチャ記述法を提案する。
我々の提案は、特に現実世界の問題において、他の古典的、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-15T03:25:51Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。