論文の概要: Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space
- arxiv url: http://arxiv.org/abs/2105.07800v1
- Date: Mon, 17 May 2021 13:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 22:10:58.436267
- Title: Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space
- Title(参考訳): ダイナミクス不変知覚空間におけるマルチモーダル視覚位置認識
- Authors: Lin Wu, Teng Wang, Changyin Sun
- Abstract要約: このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。
これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。
次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
- 参考スコア(独自算出の注目度): 23.43468556831308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual place recognition is one of the essential and challenging problems in
the fields of robotics. In this letter, we for the first time explore the use
of multi-modal fusion of semantic and visual modalities in dynamics-invariant
space to improve place recognition in dynamic environments. We achieve this by
first designing a novel deep learning architecture to generate the static
semantic segmentation and recover the static image directly from the
corresponding dynamic image. We then innovatively leverage the
spatial-pyramid-matching model to encode the static semantic segmentation into
feature vectors. In parallel, the static image is encoded using the popular
Bag-of-words model. On the basis of the above multi-modal features, we finally
measure the similarity between the query image and target landmark by the joint
similarity of their semantic and visual codes. Extensive experiments
demonstrate the effectiveness and robustness of the proposed approach for place
recognition in dynamic environments.
- Abstract(参考訳): 視覚位置認識はロボティクスの分野において必要不可欠な課題の1つである。
本稿では,動的環境における位置認識を改善するために,動的空間における意味的・視覚的モダリティのマルチモーダル融合の利用を初めて検討する。
まず,静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計し,対応する動的イメージから直接静的イメージを復元する。
次に,空間ピラミドマッチングモデルを用いて静的セマンティックセグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
上記のマルチモーダルな特徴に基づき、最終的にクエリ画像と目標ランドマークの類似度を、その意味的および視覚的コードの合同類似度によって測定する。
動的環境における位置認識のための提案手法の有効性とロバスト性を示す。
関連論文リスト
- Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。
提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文 参考訳(メタデータ) (2024-07-19T06:53:54Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Dynamic Texture Recognition via Nuclear Distances on Kernelized
Scattering Histogram Spaces [95.21606283608683]
本研究では,動的テクスチャをScattering変換を用いて計算したフレームワイド特徴ベクトルのカーネル空間として記述することを提案する。
これらの空間を基底不変距離と組み合わせることで、最も近い近傍分類の競合結果と、最も近いクラス中心分類の最先端結果を生成する枠組みを得る。
論文 参考訳(メタデータ) (2021-02-01T13:54:24Z) - Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM [6.693607456009373]
本稿では,シーンの静的な画像を得るためのデータ駆動型アプローチを提案する。
本研究では,都市環境の画像を局所化とマッピングに適したリアルな静的フレームに変換するためのエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-15T10:31:12Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。