論文の概要: CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization
- arxiv url: http://arxiv.org/abs/2410.03054v1
- Date: Fri, 4 Oct 2024 00:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:16:10.876845
- Title: CLIP-Clique: Graph-based Correspondence Matching Augmented by Vision Language Models for Object-based Global Localization
- Title(参考訳): CLIP-Clique:オブジェクトベースグローバルローカライゼーションのための視覚言語モデルによるグラフベースの対応マッチング
- Authors: Shigemichi Matsuzaki, Kazuhito Tanaka, Kazuhiro Shintani,
- Abstract要約: オブジェクトマップ上のローカライズのための最も有望なアプローチの1つは、セマンティックグラフマッチングを使用することである。
従来の問題に対処するために、視覚言語モデルを用いた対応マッチングを強化する。
さらに、inlierはグラフ理論のアプローチを用いて決定的に推定される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This letter proposes a method of global localization on a map with semantic object landmarks. One of the most promising approaches for localization on object maps is to use semantic graph matching using landmark descriptors calculated from the distribution of surrounding objects. These descriptors are vulnerable to misclassification and partial observations. Moreover, many existing methods rely on inlier extraction using RANSAC, which is stochastic and sensitive to a high outlier rate. To address the former issue, we augment the correspondence matching using Vision Language Models (VLMs). Landmark discriminability is improved by VLM embeddings, which are independent of surrounding objects. In addition, inliers are estimated deterministically using a graph-theoretic approach. We also incorporate pose calculation using the weighted least squares considering correspondence similarity and observation completeness to improve the robustness. We confirmed improvements in matching and pose estimation accuracy through experiments on ScanNet and TUM datasets.
- Abstract(参考訳): 本文では,意味オブジェクトランドマークを持つ地図上でのグローバルなローカライズ手法を提案する。
オブジェクトマップ上のローカライズのための最も有望なアプローチの1つは、周囲のオブジェクトの分布から計算されたランドマーク記述子を用いて意味グラフマッチングを使用することである。
これらの記述子は誤分類や部分的な観察に弱い。
さらに、多くの既存手法はRANSACを用いた不整合抽出に依存しており、これは確率的であり、高い外れ値率に敏感である。
従来の問題に対処するために、視覚言語モデル(VLM)を用いた対応マッチングを強化する。
ランドマークの識別性は、周囲の物体とは独立なVLM埋め込みによって改善される。
さらに、inlierはグラフ理論のアプローチを用いて決定的に推定される。
また、対応性や観測完全性を考慮した最小二乗の重み付けによるポーズ計算を導入し、ロバスト性を向上させる。
ScanNetおよびTUMデータセットを用いた実験により,マッチング精度とポーズ推定精度の改善を確認した。
関連論文リスト
- GOReloc: Graph-based Object-Level Relocalization for Visual SLAM [17.608119427712236]
本稿では,ロボットシステムのオブジェクトレベル再ローカライズのための新しい手法を紹介する。
軽量なオブジェクトレベルマップにおいて、現在のフレーム内の物体検出と3Dオブジェクトとの密接な関連付けにより、カメラセンサのポーズを決定する。
論文 参考訳(メタデータ) (2024-08-15T03:54:33Z) - CLIP-Loc: Multi-modal Landmark Association for Global Localization in
Object-based Maps [0.16492989697868893]
本稿では,オブジェクトマップとカメラ画像を用いたグローバルローカライゼーションのためのマルチモーダルデータアソシエーション手法について述べる。
本稿では,自然言語記述によるランドマークのラベル付けと,画像観察と概念的類似性に基づく対応抽出を提案する。
論文 参考訳(メタデータ) (2024-02-08T22:59:12Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Loop Closure Detection Based on Object-level Spatial Layout and Semantic
Consistency [14.694754836704819]
本稿では3次元シーングラフの空間的レイアウトとセマンティック一貫性に基づくオブジェクトベースのループ閉包検出手法を提案する。
実験により,提案手法によりより正確な3次元意味マップを構築可能であることが示された。
論文 参考訳(メタデータ) (2023-04-11T11:20:51Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Object-Augmented RGB-D SLAM for Wide-Disparity Relocalisation [3.888848425698769]
本稿では、一貫したオブジェクトマップを構築し、地図内のオブジェクトのセントロイドに基づいて再局在を行うことができるオブジェクト拡張RGB-D SLAMシステムを提案する。
論文 参考訳(メタデータ) (2021-08-05T11:02:25Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。