Fugu-MT 論文翻訳(概要): Semantic Reinforced Attention Learning for Visual Place Recognition

論文の概要: Semantic Reinforced Attention Learning for Visual Place Recognition

arxiv url: http://arxiv.org/abs/2108.08443v1
Date: Thu, 19 Aug 2021 02:14:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-21 03:08:37.102488
Title: Semantic Reinforced Attention Learning for Visual Place Recognition
Title（参考訳）: 視覚位置認識のための意味強化注意学習
Authors: Guohao Peng, Yufeng Yue, Jun Zhang, Zhenyu Wu, Xiaoyu Tang and Danwei Wang
Abstract要約: 大規模な視覚的位置認識(VPR)は、画像内のすべての視覚的手がかりがタスクに有益であるとは限らないため、本質的に困難である。本稿では,セマンティック強化型注意学習ネットワーク(SRALNet)を提案する。都市規模のVPRベンチマークデータセットにおいて,本手法が最先端技術より優れていることを示す実験結果を得た。
参考スコア（独自算出の注目度）: 15.84086970453363
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale visual place recognition (VPR) is inherently challenging because not all visual cues in the image are beneficial to the task. In order to highlight the task-relevant visual cues in the feature embedding, the existing attention mechanisms are either based on artificial rules or trained in a thorough data-driven manner. To fill the gap between the two types, we propose a novel Semantic Reinforced Attention Learning Network (SRALNet), in which the inferred attention can benefit from both semantic priors and data-driven fine-tuning. The contribution lies in two-folds. (1) To suppress misleading local features, an interpretable local weighting scheme is proposed based on hierarchical feature distribution. (2) By exploiting the interpretability of the local weighting scheme, a semantic constrained initialization is proposed so that the local attention can be reinforced by semantic priors. Experiments demonstrate that our method outperforms state-of-the-art techniques on city-scale VPR benchmark datasets.
Abstract（参考訳）: 大規模視覚位置認識(vpr)は、画像中のすべての視覚手がかりがタスクに有用であるとは限らないため、本質的に困難である。機能埋め込みにおけるタスク関連視覚的手がかりを強調するために、既存の注意機構は人工ルールに基づくか、徹底したデータ駆動方式で訓練されている。この2つのタイプのギャップを埋めるために,提案するsralnet(semantic reinforced attention learning network)を提案する。貢献は2つある。 1) 局所的特徴のミスリードを抑制するため,階層的特徴分布に基づく解釈可能な局所重み付け方式を提案する。 2) 局所重み付けスキームの解釈可能性を利用して, 局所的注意を意味的優先によって強化できるように, 意味的制約付き初期化を提案する。実験により,本手法が都市規模vprベンチマークデータセットの最先端技術を上回ることを実証した。

関連論文リスト

Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。 ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文参考訳（メタデータ） (2025-08-02T12:14:29Z)
ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。 RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文参考訳（メタデータ） (2024-11-24T14:14:14Z)
Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。 P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文参考訳（メタデータ） (2024-05-06T16:31:19Z)
Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2024-04-15T06:02:09Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文参考訳（メタデータ） (2022-05-03T17:39:27Z)
Learning Semantics for Visual Place Recognition through Multi-Scale Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文参考訳（メタデータ） (2022-01-24T14:13:12Z)
Variational Structured Attention Networks for Deep Visual Representation Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文参考訳（メタデータ） (2021-03-05T07:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。