論文の概要: Semantic Reinforced Attention Learning for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2108.08443v1
- Date: Thu, 19 Aug 2021 02:14:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-21 03:08:37.102488
- Title: Semantic Reinforced Attention Learning for Visual Place Recognition
- Title(参考訳): 視覚位置認識のための意味強化注意学習
- Authors: Guohao Peng, Yufeng Yue, Jun Zhang, Zhenyu Wu, Xiaoyu Tang and Danwei
Wang
- Abstract要約: 大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。
本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。
都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
- 参考スコア(独自算出の注目度): 15.84086970453363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale visual place recognition (VPR) is inherently challenging because
not all visual cues in the image are beneficial to the task. In order to
highlight the task-relevant visual cues in the feature embedding, the existing
attention mechanisms are either based on artificial rules or trained in a
thorough data-driven manner. To fill the gap between the two types, we propose
a novel Semantic Reinforced Attention Learning Network (SRALNet), in which the
inferred attention can benefit from both semantic priors and data-driven
fine-tuning. The contribution lies in two-folds. (1) To suppress misleading
local features, an interpretable local weighting scheme is proposed based on
hierarchical feature distribution. (2) By exploiting the interpretability of
the local weighting scheme, a semantic constrained initialization is proposed
so that the local attention can be reinforced by semantic priors. Experiments
demonstrate that our method outperforms state-of-the-art techniques on
city-scale VPR benchmark datasets.
- Abstract(参考訳): 大規模視覚位置認識(vpr)は、画像中のすべての視覚手がかりがタスクに有用であるとは限らないため、本質的に困難である。
機能埋め込みにおけるタスク関連視覚的手がかりを強調するために、既存の注意機構は人工ルールに基づくか、徹底したデータ駆動方式で訓練されている。
この2つのタイプのギャップを埋めるために,提案するsralnet(semantic reinforced attention learning network)を提案する。
貢献は2つある。
1) 局所的特徴のミスリードを抑制するため,階層的特徴分布に基づく解釈可能な局所重み付け方式を提案する。
2) 局所重み付けスキームの解釈可能性を利用して, 局所的注意を意味的優先によって強化できるように, 意味的制約付き初期化を提案する。
実験により,本手法が都市規模vprベンチマークデータセットの最先端技術を上回ることを実証した。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric
Learning in Videos [69.85030245036391]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Learning Semantics for Visual Place Recognition through Multi-Scale
Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。
さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文 参考訳(メタデータ) (2022-01-24T14:13:12Z) - Interpretable Semantic Photo Geolocalization [4.286838964398275]
ジオローカリゼーションモデルの解釈性を改善するために,2つのコントリビューションを提案する。
本稿では,予測の理解を直感的に向上させる新しいセマンティックパーティショニング手法を提案する。
また,ある予測のための意味的視覚概念の重要性を評価するための新しい指標も導入する。
論文 参考訳(メタデータ) (2021-04-30T13:28:18Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Attention based Writer Independent Handwriting Verification [0.0]
我々は,2次元入力の特徴空間における有意点を捉えるために,クロスアテンション機構とソフトアテンション機構を実装し,統合する。
ネットワークの複数のレベルからアテンションマップを抽出することにより、提案した決定に対して意味のある説明を生成する。
論文 参考訳(メタデータ) (2020-09-07T16:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。