論文の概要: Scene Retrieval for Contextual Visual Mapping
- arxiv url: http://arxiv.org/abs/2102.12728v1
- Date: Thu, 25 Feb 2021 08:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 02:02:47.265814
- Title: Scene Retrieval for Contextual Visual Mapping
- Title(参考訳): コンテキスト視覚マッピングのためのシーン検索
- Authors: William H. B. Smith, Michael Milford, Klaus D. McDonald-Maier, Shoaib
Ehsan
- Abstract要約: ビジュアルナビゲーションは、視覚的マップとしても知られる場所画像の参照データベースに対してクエリプレース画像をローカライズする。
シーンクラスは、環境とタスクのコンテキストによって異なります。
歩行者と駅を含む4つの異なるシーンクラスが、北ランドとセントルシアの各データセットで識別されている。
シーン検索は、シーンクラスの参照画像に単一のクエリイメージを関連付けることで、テスト時に定義されたシーンの分類に画像検索を拡張する。
- 参考スコア(独自算出の注目度): 22.37892767050086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual navigation localizes a query place image against a reference database
of place images, also known as a `visual map'. Localization accuracy
requirements for specific areas of the visual map, `scene classes', vary
according to the context of the environment and task. State-of-the-art visual
mapping is unable to reflect these requirements by explicitly targetting scene
classes for inclusion in the map. Four different scene classes, including
pedestrian crossings and stations, are identified in each of the Nordland and
St. Lucia datasets. Instead of re-training separate scene classifiers which
struggle with these overlapping scene classes we make our first contribution:
defining the problem of `scene retrieval'. Scene retrieval extends image
retrieval to classification of scenes defined at test time by associating a
single query image to reference images of scene classes. Our second
contribution is a triplet-trained convolutional neural network (CNN) to address
this problem which increases scene classification accuracy by up to 7% against
state-of-the-art networks pre-trained for scene recognition. The second
contribution is an algorithm `DMC' that combines our scene classification with
distance and memorability for visual mapping. Our analysis shows that DMC
includes 64% more images of our chosen scene classes in a visual map than just
using distance interval mapping. State-of-the-art visual place descriptors
AMOS-Net, Hybrid-Net and NetVLAD are finally used to show that DMC improves
scene class localization accuracy by a mean of 3% and localization accuracy of
the remaining map images by a mean of 10% across both datasets.
- Abstract(参考訳): ビジュアルナビゲーションは「ビジュアルマップ」としても知られる場所画像の参照データベースに対してクエリプレース画像をローカライズする。
視覚的マップの特定の領域における局所化精度の要件である「シーンクラス」は、環境やタスクの文脈によって異なる。
最先端のビジュアルマッピングは、マップに含めるシーンクラスを明示的にターゲットすることで、これらの要求を反映できない。
歩行者と駅を含む4つの異なるシーンクラスが、北ランドとセントルシアの各データセットで識別されている。
これらの重なり合うシーンクラスに苦しむ別々のシーン分類器を再トレーニングする代わりに、最初の貢献をする: 'scene retrieval' の問題を定義する。
シーン検索は、シーンクラスの参照画像に単一のクエリイメージを関連付けることで、テスト時に定義されたシーンの分類に画像検索を拡張する。
第2の貢献は、シーン認識のために事前訓練された最先端ネットワークに対して、シーン分類の精度を最大7%向上させる3重学習畳み込みニューラルネットワーク(CNN)である。
第2の貢献は、視覚マッピングのためのシーン分類と距離と記憶可能性を組み合わせたアルゴリズム「DMC」である。
分析の結果,dmcは距離間隔マッピングを用いた場合よりも,選択したシーンクラスのイメージを64%多く含むことがわかった。
最新のビジュアル・プレイス・ディスクリプタであるAMOS-Net、Hybrid-Net、NetVLADは、DMCがシーンクラスのローカリゼーションの精度を3%向上し、残りのマップ画像のローカリゼーション精度を両方のデータセットで平均10%向上させることを示しています。
関連論文リスト
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。