論文の概要: Learning Regional Attention over Multi-resolution Deep Convolutional
Features for Trademark Retrieval
- arxiv url: http://arxiv.org/abs/2104.07240v1
- Date: Thu, 15 Apr 2021 05:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:56:47.875952
- Title: Learning Regional Attention over Multi-resolution Deep Convolutional
Features for Trademark Retrieval
- Title(参考訳): 商標検索におけるマルチレゾリューション深層畳み込み特徴の地域的考察
- Authors: Osman Tursun, Simon Denman, Sridha Sridharan, Clinton Fookes
- Abstract要約: R-MAC(Regional-Maximum Activation of Convolutions)に集約されたオフザシェルフの深い特徴は、最先端の結果をもたらす。
R-MACは背景の乱雑/自明な領域の存在に悩まされ、ばらつきを拡大し、重要な空間情報を捨てる。
これらの欠点を克服するために、R-MACに3つの単純だが効果的な修正を導入する。
- 参考スコア(独自算出の注目度): 39.605062525247135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale trademark retrieval is an important content-based image retrieval
task. A recent study shows that off-the-shelf deep features aggregated with
Regional-Maximum Activation of Convolutions (R-MAC) achieve state-of-the-art
results. However, R-MAC suffers in the presence of background clutter/trivial
regions and scale variance, and discards important spatial information. We
introduce three simple but effective modifications to R-MAC to overcome these
drawbacks. First, we propose the use of both sum and max pooling to minimise
the loss of spatial information. We also employ domain-specific unsupervised
soft-attention to eliminate background clutter and unimportant regions.
Finally, we add multi-resolution inputs to enhance the scale-invariance of
R-MAC. We evaluate these three modifications on the million-scale METU dataset.
Our results show that all modifications bring non-trivial improvements, and
surpass previous state-of-the-art results.
- Abstract(参考訳): 大規模商標検索は重要なコンテンツに基づく画像検索タスクである。
最近の研究では、R-MAC(Regional-Maximum Activation of Convolutions)に集約された既成の深い特徴が最先端の結果をもたらすことが示されている。
しかし、R-MACは背景の乱雑/自明な領域の存在に悩まされ、分散を拡大し、重要な空間情報を捨てる。
これらの欠点を克服するために、R-MACに3つの単純だが効果的な修正を導入する。
まず,空間情報の損失を最小限に抑えるために,和と最大プーリングを併用することを提案する。
また,背景乱れや重要でない領域を除去するために,ドメイン固有のソフトアテンションを用いる。
最後に、R-MACのスケール不変性を高めるためにマルチレゾリューション入力を追加する。
百万規模のMETUデータセット上でこれらの3つの修正を評価する。
以上の結果から,すべての修正は非自明な改善をもたらし,過去の成果を上回る結果となった。
関連論文リスト
- HRDecoder: High-Resolution Decoder Network for Fundus Image Lesion Segmentation [12.606794661369959]
骨盤病変分割のための簡易高分解能デコーダネットワークHRDecoderを提案する。
高精細な局所的特徴を捉えるための高精細な表現学習モジュールと、マルチスケールの予測を融合する高精細な融合モジュールを統合している。
本手法は, 適正なメモリと計算オーバーヘッドを消費し, 推論速度の満足度を維持しながら, 足底部病変の全体的なセグメンテーション精度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-11-06T15:13:31Z) - Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - CAMP-Net: Consistency-Aware Multi-Prior Network for Accelerated MRI
Reconstruction [4.967600587813224]
k空間データをMRIでアンサンプすることでスキャン時間が短縮されるが、画像再構成において課題が生じる。
CAMP-Net は,MRI の高速化のためのアンロール型 Consistency-Aware Multi-Prior Network を提案する。
論文 参考訳(メタデータ) (2023-06-20T02:21:45Z) - Dive into the Resolution Augmentations and Metrics in Low Resolution
Face Recognition: A Plain yet Effective New Baseline [33.82038623492457]
我々は高分解能(HR)ドメインと低分解能(LR)ドメインの間の大きなドメインギャップに対処する。
より効果的なマルチリゾリューション拡張と,LogExp距離関数に基づく新しいメトリクス損失を提案する。
提案手法は,画像の広い解像度範囲でより一般的な知識を学習することができ,バランスのとれた結果が,我々のフレームワークによって達成できる。
論文 参考訳(メタデータ) (2023-02-11T07:31:47Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - MogFace: Rethinking Scale Augmentation on the Face Detector [17.570686622370403]
本研究では,画像の前景情報と後景情報とスケール情報を含む先行ソリューションの違いについて検討する。
本稿では,これらの2つの情報を効率的に同時に同化できるSSE戦略を提案する。
本手法は,すべての顔検出ベンチマークにおける最先端検出性能を実現する。
論文 参考訳(メタデータ) (2021-03-20T09:17:04Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - DSU-net: Dense SegU-net for automatic head-and-neck tumor segmentation
in MR images [30.747375849126925]
MRIにおける鼻咽頭癌(NPC)分類のためのDense SegU-net(DSU-net)フレームワークを提案する。
潜在的な消滅段階的問題に対処するために,特徴の伝播と再利用を容易にする高密度ブロックを導入する。
提案するアーキテクチャは,既存の最先端セグメンテーションネットワークよりも優れている。
論文 参考訳(メタデータ) (2020-06-11T09:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。