論文の概要: A Novel Image Descriptor with Aggregated Semantic Skeleton
Representation for Long-term Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2202.03677v1
- Date: Tue, 8 Feb 2022 06:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:57:52.438159
- Title: A Novel Image Descriptor with Aggregated Semantic Skeleton
Representation for Long-term Visual Place Recognition
- Title(参考訳): 長期視覚位置認識のための意味的スケルトン表現を用いた新しい画像記述器
- Authors: Nie Jiwei and Feng Joe-Mei and Xue Dingyu and Pan Feng and Liu Wei and
Hu Jun and Cheng Shuai
- Abstract要約: 集合的意味骨格表現(SSR)を用いた新しい画像記述法を提案する。
1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。
我々は,挑戦的な都市景観の3つの公開データセットについて,一連の実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a Simultaneous Localization and Mapping (SLAM) system, a loop-closure can
eliminate accumulated errors, which is accomplished by Visual Place Recognition
(VPR), a task that retrieves the current scene from a set of pre-stored
sequential images through matching specific scene-descriptors. In urban scenes,
the appearance variation caused by seasons and illumination has brought great
challenges to the robustness of scene descriptors. Semantic segmentation images
can not only deliver the shape information of objects but also their categories
and spatial relations that will not be affected by the appearance variation of
the scene. Innovated by the Vector of Locally Aggregated Descriptor (VLAD), in
this paper, we propose a novel image descriptor with aggregated semantic
skeleton representation (SSR), dubbed SSR-VLAD, for the VPR under drastic
appearance-variation of environments. The SSR-VLAD of one image aggregates the
semantic skeleton features of each category and encodes the spatial-temporal
distribution information of the image semantic information. We conduct a series
of experiments on three public datasets of challenging urban scenes. Compared
with four state-of-the-art VPR methods- CoHOG, NetVLAD, LOST-X, and
Region-VLAD, VPR by matching SSR-VLAD outperforms those methods and maintains
competitive real-time performance at the same time.
- Abstract(参考訳): 同期ローカライゼーション・マッピング(SLAM)システムにおいて、ループクロージャは、特定のシーン記述子をマッチングすることで、プレストアされたシーケンシャルイメージのセットから現在のシーンを検索するVisual Place Recognition(VPR)によって達成される累積エラーを除去することができる。
都市シーンでは、季節や照明による外観の変化が、シーン記述者の頑健さに大きな課題をもたらしている。
意味的セグメンテーション画像は、対象の形状情報だけでなく、シーンの外観変化に影響されないカテゴリや空間関係も提供できる。
本稿では, 局所集約記述子ベクトル (VLAD) の革新により, 環境の急激な変化下でのVPRに対して, SSR-VLADと呼ばれる, 集合的意味的骨格表現(SSR)を付加した新しい画像記述子を提案する。
1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。
都市景観に挑戦する3つの公共データセットについて,一連の実験を行った。
CoHOG, NetVLAD, LOST-X, Region-VLADの4つの最先端VPR手法と比較して、SSR-VLADのマッチングによりVPRはこれらの手法より優れ、同時に競合するリアルタイム性能を維持する。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition [17.393105901701098]
本稿では、汎用データセット表現技術を用いて、堅牢な視覚的位置認識(VPR)記述子を生成する。
我々の実験は、我々の表現が、トレーニングデータ分布から真剣なドメインシフトへの現在の解決策よりも堅牢性を高めることができることを示している。
論文 参考訳(メタデータ) (2024-03-14T01:30:28Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Fast and Efficient Scene Categorization for Autonomous Driving using
VAEs [2.694218293356451]
シーン分類は、高度なコンピュータビジョンタスクの事前知識を提供する有用な前駆的タスクである。
画像から粗い特徴を捉えるグローバルな記述子を生成し、分類ヘッドを用いて記述子を3つのシーン(農村、都市、郊外)にマップする。
提案するグローバルディスクリプタは非常にコンパクトで、埋め込み長は128であり、計算がかなり高速で、季節や不純物の変化に対して堅牢である。
論文 参考訳(メタデータ) (2022-10-26T18:50:15Z) - Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。
我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文 参考訳(メタデータ) (2022-05-16T20:23:11Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。