論文の概要: DIABLO: Dictionary-based Attention Block for Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2004.14644v1
- Date: Thu, 30 Apr 2020 09:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:58:41.535740
- Title: DIABLO: Dictionary-based Attention Block for Deep Metric Learning
- Title(参考訳): DIABLO:Deep Metric Learningのための辞書ベースの注意ブロック
- Authors: Pierre Jacob, David Picard, Aymeric Histace, Edouard Klein
- Abstract要約: DIABLOは画像埋め込みのための辞書ベースのアテンション手法である。
視覚的な機能のみを集約することで、よりリッチな表現を生成する。
4つのディープ・メトリック・ラーニング・データセットで実験的に確認されている。
- 参考スコア(独自算出の注目度): 23.083900077464442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in representation learning of unseen classes and
examples have been made in deep metric learning by training at the same time
the image representations and a corresponding metric with deep networks. Recent
contributions mostly address the training part (loss functions, sampling
strategies, etc.), while a few works focus on improving the discriminative
power of the image representation. In this paper, we propose DIABLO, a
dictionary-based attention method for image embedding. DIABLO produces richer
representations by aggregating only visually-related features together while
being easier to train than other attention-based methods in deep metric
learning. This is experimentally confirmed on four deep metric learning
datasets (Cub-200-2011, Cars-196, Stanford Online Products, and In-Shop Clothes
Retrieval) for which DIABLO shows state-of-the-art performances.
- Abstract(参考訳): 画像表現とそれに対応するメトリクスとをディープネットワークで同時にトレーニングすることで、未知のクラスや例の表現学習における最近のブレークスルーが深層メトリック学習で実現されている。
最近のコントリビューションは、主にトレーニング部分(ロス関数、サンプリング戦略など)に対処する一方で、画像表現の識別力の向上に重点を置いている研究もいくつかある。
本稿では,画像埋め込みのための辞書型注意手法diabloを提案する。
DIABLOは、深いメトリクス学習において、他の注意に基づく方法よりも訓練が容易でありながら、視覚的な機能のみを集約することで、よりリッチな表現を生成する。
これは、DIABLOが最先端のパフォーマンスを示す4つのディープラーニングデータセット(Cub-200-2011、Cars-196、Stanford Online Products、In-Shop Clothes Retrieval)で実験的に確認されている。
関連論文リスト
- Deep Dictionary Learning with An Intra-class Constraint [23.679645826983503]
視覚分類のためのクラス内制約(DDLIC)を用いた新しい深層辞書学習モデルを提案する。
具体的には、クラス内表現が互いに近接するように、異なるレベルにおける中間表現のクラス内コンパクト性制約を設計する。
従来のDDL手法とは異なり、分類段階において、DDLICはトレーニング段階と同じような方法で階層的にグレディな最適化を行う。
論文 参考訳(メタデータ) (2022-07-14T11:54:58Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。