論文の概要: Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval
- arxiv url: http://arxiv.org/abs/2112.07966v2
- Date: Thu, 16 Dec 2021 02:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 11:54:35.387567
- Title: Modality-Aware Triplet Hard Mining for Zero-shot Sketch-Based Image
Retrieval
- Title(参考訳): ゼロショットスケッチ画像検索のためのモダリティ対応トリプルトハードマイニング
- Authors: Zongheng Huang, YiFan Sun, Chuchu Han, Changxin Gao, Nong Sang
- Abstract要約: 本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
モータリティ・アウェア・トリプルト・ハード・マイニング(MATHM)は3種類のペア・ラーニングによってベースラインを向上することを示す。
- 参考スコア(独自算出の注目度): 51.42470171051007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the Zero-Shot Sketch-Based Image Retrieval (ZS-SBIR)
problem from the viewpoint of cross-modality metric learning. This task has two
characteristics: 1) the zero-shot setting requires a metric space with good
within-class compactness and the between-class discrepancy for recognizing the
novel classes and 2) the sketch query and the photo gallery are in different
modalities. The metric learning viewpoint benefits ZS-SBIR from two aspects.
First, it facilitates improvement through recent good practices in deep metric
learning (DML). By combining two fundamental learning approaches in DML, e.g.,
classification training and pairwise training, we set up a strong baseline for
ZS-SBIR. Without bells and whistles, this baseline achieves competitive
retrieval accuracy. Second, it provides an insight that properly suppressing
the modality gap is critical. To this end, we design a novel method named
Modality-Aware Triplet Hard Mining (MATHM). MATHM enhances the baseline with
three types of pairwise learning, e.g., a cross-modality sample pair, a
within-modality sample pair, and their combination.\We also design an adaptive
weighting method to balance these three components during training dynamically.
Experimental results confirm that MATHM brings another round of significant
improvement based on the strong baseline and sets up new state-of-the-art
performance. For example, on the TU-Berlin dataset, we achieve 47.88+2.94%
mAP@all and 58.28+2.34% Prec@100. Code will be publicly available at:
https://github.com/huangzongheng/MATHM.
- Abstract(参考訳): 本稿では,ZES-SBIR(Zero-Shot Sketch-Based Image Retrieval)問題に,クロスモダリティメトリック学習の観点から取り組む。
このタスクには2つの特徴があります
1)ゼロショット設定は、クラス内コンパクト性と、新規クラスを認識するためのクラス間の相違性を有する計量空間を必要とする。
2)スケッチクエリとフォトギャラリーは異なるモードである。
計量学習の観点は、2つの側面からZS-SBIRの恩恵を受ける。
第一に、ディープメトリックラーニング(DML)における最近の良い実践を通じて改善を促進する。
DMLにおける2つの基本的な学習手法、例えば分類訓練とペアトレーニングを組み合わせることで、ZS-SBIRの強力なベースラインを構築した。
ベルとホイッスルがなければ、このベースラインは競合する検索精度を達成する。
第二に、モダリティギャップを適切に抑制することが重要であるという洞察を与える。
そこで我々は, Modality-Aware Triplet Hard Mining (MATHM) という新しい手法を設計した。
MATHMは、3種類のペアワイズ学習(例えば、クロスモダリティサンプルペア、イントラモダリティサンプルペア、およびそれらの組み合わせ)でベースラインを強化する。
また,これらの3成分を動的にバランスさせる適応重み付け法も設計した。
実験結果から,MATHMは強いベースラインに基づいて新たな大幅な改良を行い,新たな最先端性能が確立された。
例えば、TU-Berlinデータセットでは、47.88+2.94% mAP@allと58.28+2.34% Prec@100を達成する。
コードは、https://github.com/huangzongheng/MATHM.comで公開される。
関連論文リスト
- LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization [0.9562145896371785]
本研究では,2次元画像領域と3次元LiDAR点の領域にコントラスト言語-画像事前学習を適用した。
提案手法は,視点画像のみを用いて,KITTI-360データセットの最先端リコール@1精度を22.4%向上させる。
また、モデルのゼロショット能力を実証し、トレーニングもせずにSOTAを8%上回りました。
論文 参考訳(メタデータ) (2023-12-27T17:23:57Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval [3.164991885881342]
クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T12:35:54Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。