論文の概要: JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2403.19787v1
- Date: Thu, 28 Mar 2024 19:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:23:49.384712
- Title: JIST: Joint Image and Sequence Training for Sequential Visual Place Recognition
- Title(参考訳): JIST:連続的な視覚的位置認識のための共同画像とシーケンストレーニング
- Authors: Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone,
- Abstract要約: 視覚的場所認識は、視覚的手がかりに頼って、これまで訪れた場所を認識することを目的としており、SLAMとローカライゼーションのためのロボティクスアプリケーションで使用される。
マルチタスク学習フレームワークを用いて,大規模な未処理画像集合を利用する新しいJIST(Joint Image and Sequence Training Protocol)を提案する。
提案モデルでは,8倍の小さい記述子を用いて,より軽量なアーキテクチャで,さまざまな長さのシーケンスを処理し,より高速な動作を実現している。
- 参考スコア(独自算出の注目度): 21.039399444257807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition aims at recognizing previously visited places by relying on visual clues, and it is used in robotics applications for SLAM and localization. Since typically a mobile robot has access to a continuous stream of frames, this task is naturally cast as a sequence-to-sequence localization problem. Nevertheless, obtaining sequences of labelled data is much more expensive than collecting isolated images, which can be done in an automated way with little supervision. As a mitigation to this problem, we propose a novel Joint Image and Sequence Training protocol (JIST) that leverages large uncurated sets of images through a multi-task learning framework. With JIST we also introduce SeqGeM, an aggregation layer that revisits the popular GeM pooling to produce a single robust and compact embedding from a sequence of single-frame embeddings. We show that our model is able to outperform previous state of the art while being faster, using 8 times smaller descriptors, having a lighter architecture and allowing to process sequences of various lengths. Code is available at https://github.com/ga1i13o/JIST
- Abstract(参考訳): 視覚的場所認識は、視覚的手がかりに頼って、これまで訪れた場所を認識することを目的としており、SLAMとローカライゼーションのためのロボティクスアプリケーションで使用される。
通常、移動ロボットは連続したフレームストリームにアクセスするため、このタスクはシーケンシャル・ツー・シーケンスのローカライズ問題として自然にキャストされる。
それでも、ラベル付きデータのシーケンスを取得することは、分離された画像の収集よりもはるかにコストがかかる。
この問題を緩和するために,マルチタスク学習フレームワークを用いて,大規模な未処理画像の集合を利用する新しいJIST(Joint Image and Sequence Training Protocol)を提案する。
JISTでは、一般的なGeMプーリングを再検討して、単一のフレームの埋め込みシーケンスから単一の堅牢でコンパクトな埋め込みを生成する、セックGeMも導入しています。
提案モデルでは,より高速で,より小型のディスクリプタを8倍使い,軽量なアーキテクチャを持ち,様々な長さのシーケンスを処理可能であることを示す。
コードはhttps://github.com/ga1i13o/JISTで入手できる。
関連論文リスト
- Made to Order: Discovering monotonic temporal changes via self-supervised video ordering [89.0660110757949]
我々は、シャッフルされた画像シーケンスをオーバシリ信号として処理する簡単なプロキシタスクを利用する。
本稿では,任意の長さの画像列を帰属マップで順序付けするトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T17:59:56Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Learning Sequential Descriptors for Sequence-based Visual Place
Recognition [14.738954189759156]
ロボット工学において、視覚的位置認識(Visual Place Recognition)とは、ロボットの現在位置の仮説を生成するためのビデオストリームとして入力される連続的なプロセスである。
本研究は、逐次記述子を用いた技法の詳細な分類法を提案し、個々の画像から情報を融合するための異なるメカニズムを強調した。
論文 参考訳(メタデータ) (2022-07-08T12:52:04Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition [31.714928102950594]
本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
論文 参考訳(メタデータ) (2021-02-23T10:32:10Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z) - MTL-NAS: Task-Agnostic Neural Architecture Search towards
General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。
異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。
また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T09:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。