論文の概要: SEMICON: A Learning-to-hash Solution for Large-scale Fine-grained Image
Retrieval
- arxiv url: http://arxiv.org/abs/2209.13833v1
- Date: Wed, 28 Sep 2022 04:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:15:42.090567
- Title: SEMICON: A Learning-to-hash Solution for Large-scale Fine-grained Image
Retrieval
- Title(参考訳): SEMICON: 大規模きめ細かい画像検索のための学習とハッシュのソリューション
- Authors: Yang Shen, Xuhao Sun, Xiu-Shen Wei, Qing-Yuan Jiang, Jian Yang
- Abstract要約: 我々は,Suppression-Enhancing Mask based attention and Interactive Channel transformation (SEMICON)を提案する。
SEMICONは、大規模なきめ細かい画像検索タスクを扱うためにバイナリハッシュコードを学ぶように設計されている。
5つのベンチマークのきめ細かいデータセットの実験は、競合する手法よりも優れていることを示している。
- 参考スコア(独自算出の注目度): 42.454761388123025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Suppression-Enhancing Mask based attention and
Interactive Channel transformatiON (SEMICON) to learn binary hash codes for
dealing with large-scale fine-grained image retrieval tasks. In SEMICON, we
first develop a suppression-enhancing mask (SEM) based attention to dynamically
localize discriminative image regions. More importantly, different from
existing attention mechanism simply erasing previous discriminative regions,
our SEM is developed to restrain such regions and then discover other
complementary regions by considering the relation between activated regions in
a stage-by-stage fashion. In each stage, the interactive channel transformation
(ICON) module is afterwards designed to exploit correlations across channels of
attended activation tensors. Since channels could generally correspond to the
parts of fine-grained objects, the part correlation can be also modeled
accordingly, which further improves fine-grained retrieval accuracy. Moreover,
to be computational economy, ICON is realized by an efficient two-step process.
Finally, the hash learning of our SEMICON consists of both global- and
local-level branches for better representing fine-grained objects and then
generating binary hash codes explicitly corresponding to multiple levels.
Experiments on five benchmark fine-grained datasets show our superiority over
competing methods.
- Abstract(参考訳): 本稿では,大規模な細粒度画像検索タスクを扱うためのバイナリハッシュコードを学習するために,semicon(spression-enhancing mask based attention and interactive channel transformation)を提案する。
セミコンでは,まず注意に基づく抑圧強調マスク(sem)を開発し,識別画像領域を動的にローカライズする。
さらに,既存の注意機構と異なり,従来の識別領域を簡易に消去し,ステージごとの活性化領域間の関係を考慮し,これらの領域を抑制し,他の補完領域を発見する。
それぞれの段階では、interactive channel transformation (icon)モジュールはその後、出席したアクティベーションテンソルのチャネル間の相関を利用するように設計されている。
チャネルは一般に細粒度オブジェクトの部分に対応できるため、その部分の相関もモデル化できるため、より精細度の精度が向上する。
さらに、計算経済として、ICONは効率的な2段階プロセスによって実現される。
最後に、SEMICONのハッシュ学習は、グローバルレベルとローカルレベルの両方のブランチで構成されており、細粒度オブジェクトをより良く表現し、複数のレベルに対応するバイナリハッシュコードを生成する。
5つのベンチマークのきめ細かいデータセットの実験は、競合する手法よりも優れていることを示している。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Self-semantic contour adaptation for cross modality brain tumor
segmentation [13.260109561599904]
本稿では,前駆的なタスクへの適応を容易にするために,低レベルエッジ情報を活用することを提案する。
正確な輪郭は、意味適応を導くために空間情報を提供する。
われわれはBraTS2018データベース上で脳腫瘍のクロスモーダルセグメンテーションの枠組みについて検討した。
論文 参考訳(メタデータ) (2022-01-13T15:16:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。