Fugu-MT 論文翻訳(概要): Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space

論文の概要: Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space

arxiv url: http://arxiv.org/abs/2105.07800v1
Date: Mon, 17 May 2021 13:14:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-18 22:10:58.436267
Title: Multi-modal Visual Place Recognition in Dynamics-Invariant Perception Space
Title（参考訳）: ダイナミクス不変知覚空間におけるマルチモーダル視覚位置認識
Authors: Lin Wu, Teng Wang, Changyin Sun
Abstract要約: このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
参考スコア（独自算出の注目度）: 23.43468556831308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual place recognition is one of the essential and challenging problems in the fields of robotics. In this letter, we for the first time explore the use of multi-modal fusion of semantic and visual modalities in dynamics-invariant space to improve place recognition in dynamic environments. We achieve this by first designing a novel deep learning architecture to generate the static semantic segmentation and recover the static image directly from the corresponding dynamic image. We then innovatively leverage the spatial-pyramid-matching model to encode the static semantic segmentation into feature vectors. In parallel, the static image is encoded using the popular Bag-of-words model. On the basis of the above multi-modal features, we finally measure the similarity between the query image and target landmark by the joint similarity of their semantic and visual codes. Extensive experiments demonstrate the effectiveness and robustness of the proposed approach for place recognition in dynamic environments.
Abstract（参考訳）: 視覚位置認識はロボティクスの分野において必要不可欠な課題の1つである。本稿では,動的環境における位置認識を改善するために,動的空間における意味的・視覚的モダリティのマルチモーダル融合の利用を初めて検討する。まず,静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計し,対応する動的イメージから直接静的イメージを復元する。次に,空間ピラミドマッチングモデルを用いて静的セマンティックセグメンテーションを特徴ベクトルに符号化する。並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。上記のマルチモーダルな特徴に基づき、最終的にクエリ画像と目標ランドマークの類似度を、その意味的および視覚的コードの合同類似度によって測定する。動的環境における位置認識のための提案手法の有効性とロバスト性を示す。

関連論文リスト

Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video [3.2195139886901813]
マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
論文参考訳（メタデータ） (2025-02-15T00:35:34Z)
Self-Supervised Video Representation Learning in a Heuristic Decoupled Perspective [10.938290904843939]
本稿では,動的セマンティクスと静的セマンティクスの両方を疎結合で捉えるために,解答と干渉を伴う学習力学の双レベル最適化(BOLD-DI)を提案する。提案手法は既存のv-CL手法とシームレスに統合でき, 実験結果から重要な改善点が示された。
論文参考訳（メタデータ） (2024-07-19T06:53:54Z)
Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。動的環境のための新しいSLAMフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-18T09:35:48Z)
Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。 HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文参考訳（メタデータ） (2024-04-21T02:21:30Z)
Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-28T16:16:51Z)
Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:03:23Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
Dynamic Texture Recognition via Nuclear Distances on Kernelized Scattering Histogram Spaces [95.21606283608683]
本研究では,動的テクスチャをScattering変換を用いて計算したフレームワイド特徴ベクトルのカーネル空間として記述することを提案する。これらの空間を基底不変距離と組み合わせることで、最も近い近傍分類の競合結果と、最も近いクラス中心分類の最先端結果を生成する枠組みを得る。
論文参考訳（メタデータ） (2021-02-01T13:54:24Z)
Empty Cities: a Dynamic-Object-Invariant Space for Visual SLAM [6.693607456009373]
本稿では,シーンの静的な画像を得るためのデータ駆動型アプローチを提案する。本研究では,都市環境の画像を局所化とマッピングに適したリアルな静的フレームに変換するためのエンドツーエンドのディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-15T10:31:12Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。