論文の概要: CLIP-Loc: Multi-modal Landmark Association for Global Localization in
Object-based Maps
- arxiv url: http://arxiv.org/abs/2402.06092v1
- Date: Thu, 8 Feb 2024 22:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:30:36.416365
- Title: CLIP-Loc: Multi-modal Landmark Association for Global Localization in
Object-based Maps
- Title(参考訳): CLIP-Loc:オブジェクトマップにおけるグローバルローカライゼーションのためのマルチモーダルランドマークアソシエーション
- Authors: Shigemichi Matsuzaki, Takuma Sugino, Kazuhito Tanaka, Zijun Sha,
Shintaro Nakaoka, Shintaro Yoshizawa, Kazuhiro Shintani
- Abstract要約: 本稿では,オブジェクトマップとカメラ画像を用いたグローバルローカライゼーションのためのマルチモーダルデータアソシエーション手法について述べる。
本稿では,自然言語記述によるランドマークのラベル付けと,画像観察と概念的類似性に基づく対応抽出を提案する。
- 参考スコア(独自算出の注目度): 0.16492989697868893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes a multi-modal data association method for global
localization using object-based maps and camera images. In global localization,
or relocalization, using object-based maps, existing methods typically resort
to matching all possible combinations of detected objects and landmarks with
the same object category, followed by inlier extraction using RANSAC or
brute-force search. This approach becomes infeasible as the number of landmarks
increases due to the exponential growth of correspondence candidates. In this
paper, we propose labeling landmarks with natural language descriptions and
extracting correspondences based on conceptual similarity with image
observations using a Vision Language Model (VLM). By leveraging detailed text
information, our approach efficiently extracts correspondences compared to
methods using only object categories. Through experiments, we demonstrate that
the proposed method enables more accurate global localization with fewer
iterations compared to baseline methods, exhibiting its efficiency.
- Abstract(参考訳): 本稿では,オブジェクトマップとカメラ画像を用いたグローバルローカライゼーションのためのマルチモーダルデータアソシエーション手法について述べる。
グローバルローカライズや再ローカライズでは、既存の手法では、検出されたオブジェクトとランドマークのすべての組み合わせを同じオブジェクトカテゴリにマッチさせ、続いてransacやbrute-force searchを用いた異常抽出を行う。
このアプローチは、対応候補の指数関数的な増加によってランドマーク数が増加すると実現不可能になる。
本稿では,自然言語記述によるランドマークのラベル付けと,視覚言語モデル(vlm)を用いた画像観察と概念的類似性に基づく対応抽出を提案する。
提案手法は,詳細なテキスト情報を活用することで,オブジェクトカテゴリのみを用いた手法と比較して,効率よく対応を抽出する。
実験により,提案手法は,ベースライン法に比べて少ないイテレーションでより正確なグローバルローカライゼーションを実現し,その効率性を示した。
関連論文リスト
- LOSS-SLAM: Lightweight Open-Set Semantic Simultaneous Localization and Mapping [9.289001828243512]
オブジェクトを識別,ローカライズ,符号化するシステムは,オープンセットのセマンティックな同時ローカライゼーションとマッピングを行う確率的グラフィカルモデルと密結合していることを示す。
提案した軽量オブジェクト符号化は,既存のオープンセット手法よりも高精度なオブジェクトベースSLAMを実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-05T19:42:55Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Single-Shot Global Localization via Graph-Theoretic Correspondence
Matching [16.956872056232633]
提案手法は最大傾き問題(MCP)に基づく対応マッチングを用いる。
セマンティックラベル付き3Dポイントクラウドマップとセマンティックセグメンテーションイメージをクエリとして実装する。
本手法は都市景観の大規模シミュレートされた複数の地図に対して有望な結果を示す。
論文 参考訳(メタデータ) (2023-06-06T12:52:07Z) - An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。
提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文 参考訳(メタデータ) (2023-05-12T08:10:14Z) - Spatial Likelihood Voting with Self-Knowledge Distillation for Weakly
Supervised Object Detection [54.24966006457756]
自己知識蒸留ネットワーク(SLV-SDネット)を用いたWSODフレームワークを提案する。
SLV-SD Netは、境界ボックスアノテーションなしで領域提案のローカライゼーションを収束させる。
PASCAL VOC 2007/2012およびMS-COCOデータセットの実験は、SLV-SD Netの優れた性能を示している。
論文 参考訳(メタデータ) (2022-04-14T11:56:19Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Local Context Attention for Salient Object Segmentation [5.542044768017415]
本研究では,一様表現型アーキテクチャで局所強化特徴写像を生成するための新しいローカルコンテキスト注意ネットワーク(LCANet)を提案する。
提案するネットワークでは,粗い予測と大域的コンテキストの間の相関特徴写像を計算し,アテンショナル・コリレーション・フィルタ (ACF) モジュールを導入している。
いくつかの有能なオブジェクトセグメンテーションデータセットに対して総合的な実験を行い、提案したLCANetの最先端手法に対する優れた性能を実証した。
論文 参考訳(メタデータ) (2020-09-24T09:20:06Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。