Fugu-MT 論文翻訳(概要): A Novel Image Descriptor with Aggregated Semantic Skeleton Representation for Long-term Visual Place Recognition

論文の概要: A Novel Image Descriptor with Aggregated Semantic Skeleton Representation for Long-term Visual Place Recognition

arxiv url: http://arxiv.org/abs/2202.03677v1
Date: Tue, 8 Feb 2022 06:49:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-09 14:57:52.438159
Title: A Novel Image Descriptor with Aggregated Semantic Skeleton Representation for Long-term Visual Place Recognition
Title（参考訳）: 長期視覚位置認識のための意味的スケルトン表現を用いた新しい画像記述器
Authors: Nie Jiwei and Feng Joe-Mei and Xue Dingyu and Pan Feng and Liu Wei and Hu Jun and Cheng Shuai
Abstract要約: 集合的意味骨格表現(SSR)を用いた新しい画像記述法を提案する。 1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。我々は,挑戦的な都市景観の3つの公開データセットについて,一連の実験を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a Simultaneous Localization and Mapping (SLAM) system, a loop-closure can eliminate accumulated errors, which is accomplished by Visual Place Recognition (VPR), a task that retrieves the current scene from a set of pre-stored sequential images through matching specific scene-descriptors. In urban scenes, the appearance variation caused by seasons and illumination has brought great challenges to the robustness of scene descriptors. Semantic segmentation images can not only deliver the shape information of objects but also their categories and spatial relations that will not be affected by the appearance variation of the scene. Innovated by the Vector of Locally Aggregated Descriptor (VLAD), in this paper, we propose a novel image descriptor with aggregated semantic skeleton representation (SSR), dubbed SSR-VLAD, for the VPR under drastic appearance-variation of environments. The SSR-VLAD of one image aggregates the semantic skeleton features of each category and encodes the spatial-temporal distribution information of the image semantic information. We conduct a series of experiments on three public datasets of challenging urban scenes. Compared with four state-of-the-art VPR methods- CoHOG, NetVLAD, LOST-X, and Region-VLAD, VPR by matching SSR-VLAD outperforms those methods and maintains competitive real-time performance at the same time.
Abstract（参考訳）: 同期ローカライゼーション・マッピング(SLAM)システムにおいて、ループクロージャは、特定のシーン記述子をマッチングすることで、プレストアされたシーケンシャルイメージのセットから現在のシーンを検索するVisual Place Recognition(VPR)によって達成される累積エラーを除去することができる。都市シーンでは、季節や照明による外観の変化が、シーン記述者の頑健さに大きな課題をもたらしている。意味的セグメンテーション画像は、対象の形状情報だけでなく、シーンの外観変化に影響されないカテゴリや空間関係も提供できる。本稿では, 局所集約記述子ベクトル (VLAD) の革新により, 環境の急激な変化下でのVPRに対して, SSR-VLADと呼ばれる, 集合的意味的骨格表現(SSR)を付加した新しい画像記述子を提案する。 1つの画像のSSR-VLADは、各カテゴリのセマンティックスケルトンの特徴を集約し、画像意味情報の時空間分布情報を符号化する。都市景観に挑戦する3つの公共データセットについて,一連の実験を行った。 CoHOG, NetVLAD, LOST-X, Region-VLADの4つの最先端VPR手法と比較して、SSR-VLADのマッチングによりVPRはこれらの手法より優れ、同時に競合するリアルタイム性能を維持する。

関連論文リスト

MVC-VPR: Mutual Learning of Viewpoint Classification and Visual Place Recognition [13.681827205077727]
本稿では,視点的自己分類と視覚的位置認識の相互学習を紹介する。データセットは、位置認識のための記述子抽出器を同時に訓練しながら、教師なしの方法で分割される。提案手法は, 基底真理ラベルを用いてデータセットを分割する, 最先端(SOTA)手法を抽出する。
論文参考訳（メタデータ） (2024-12-12T11:49:18Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition [17.393105901701098]
本稿では、汎用データセット表現技術を用いて、堅牢な視覚的位置認識(VPR)記述子を生成する。我々の実験は、我々の表現が、トレーニングデータ分布から真剣なドメインシフトへの現在の解決策よりも堅牢性を高めることができることを示している。
論文参考訳（メタデータ） (2024-03-14T01:30:28Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-02-29T15:05:11Z)
Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文参考訳（メタデータ） (2024-02-03T09:18:49Z)
Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。 SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文参考訳（メタデータ） (2023-11-27T15:46:19Z)
IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文参考訳（メタデータ） (2023-03-25T08:19:31Z)
Fast and Efficient Scene Categorization for Autonomous Driving using VAEs [2.694218293356451]
シーン分類は、高度なコンピュータビジョンタスクの事前知識を提供する有用な前駆的タスクである。画像から粗い特徴を捉えるグローバルな記述子を生成し、分類ヘッドを用いて記述子を3つのシーン(農村、都市、郊外)にマップする。提案するグローバルディスクリプタは非常にコンパクトで、埋め込み長は128であり、計算がかなり高速で、季節や不純物の変化に対して堅牢である。
論文参考訳（メタデータ） (2022-10-26T18:50:15Z)
Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文参考訳（メタデータ） (2022-05-16T20:23:11Z)
Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文参考訳（メタデータ） (2022-05-10T07:52:24Z)
Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文参考訳（メタデータ） (2020-06-20T22:43:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。