論文の概要: A Framework to Enhance Generalization of Deep Metric Learning methods
using General Discriminative Feature Learning and Class Adversarial Neural
Networks
- arxiv url: http://arxiv.org/abs/2106.06420v1
- Date: Fri, 11 Jun 2021 14:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:21:26.095290
- Title: A Framework to Enhance Generalization of Deep Metric Learning methods
using General Discriminative Feature Learning and Class Adversarial Neural
Networks
- Title(参考訳): 一般識別型特徴学習とクラス対数ニューラルネットワークを用いた深度学習手法の一般化を支援するフレームワーク
- Authors: Karrar Al-Kaabi, Reza Monsefi, Davood Zabihzadeh
- Abstract要約: メトリック学習アルゴリズムは、意味論的に類似したデータアイテムをまとめて、異種データを遠くに保持する距離関数を学習することを目的としている。
データから特徴を自動的に抽出し,入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。
ゼロショット学習(ZSL)環境において,既存のDML手法の一般化能力を高める枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metric learning algorithms aim to learn a distance function that brings the
semantically similar data items together and keeps dissimilar ones at a
distance. The traditional Mahalanobis distance learning is equivalent to find a
linear projection. In contrast, Deep Metric Learning (DML) methods are proposed
that automatically extract features from data and learn a non-linear
transformation from input space to a semantically embedding space. Recently,
many DML methods are proposed focused to enhance the discrimination power of
the learned metric by providing novel sampling strategies or loss functions.
This approach is very helpful when both the training and test examples are
coming from the same set of categories. However, it is less effective in many
applications of DML such as image retrieval and person-reidentification. Here,
the DML should learn general semantic concepts from observed classes and employ
them to rank or identify objects from unseen categories. Neglecting the
generalization ability of the learned representation and just emphasizing to
learn a more discriminative embedding on the observed classes may lead to the
overfitting problem. To address this limitation, we propose a framework to
enhance the generalization power of existing DML methods in a Zero-Shot
Learning (ZSL) setting by general yet discriminative representation learning
and employing a class adversarial neural network. To learn a more general
representation, we propose to employ feature maps of intermediate layers in a
deep neural network and enhance their discrimination power through an attention
mechanism. Besides, a class adversarial network is utilized to enforce the deep
model to seek class invariant features for the DML task. We evaluate our work
on widely used machine vision datasets in a ZSL setting.
- Abstract(参考訳): メトリック学習アルゴリズムは、意味的に類似したデータ項目を結合し、異なる類似データを遠隔で保持する距離関数を学習することを目的としている。
伝統的なマハラノビス距離学習は線型射影を見つけるのに等価である。
対照的に、データから特徴を自動的に抽出し、入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。
近年,新しいサンプリング戦略や損失関数を提供することで,学習指標の識別能力を高めるために,多くのDML手法が提案されている。
このアプローチは、トレーニングとテストの両方の例が同じカテゴリのセットから来ている場合、非常に役立ちます。
しかし、画像検索や人物識別といったDMLの多くの応用では効果が低い。
ここでは、DMLは観察されたクラスから一般的な意味概念を学び、未知のカテゴリからのオブジェクトのランク付けや識別に使用するべきである。
学習した表現の一般化能力を無視し、観察されたクラスにより差別的な埋め込みを学ぶことを強調すると、オーバーフィッティング問題につながる可能性がある。
この制限に対処するために,ZSL(Zero-Shot Learning)設定における既存のDML手法の一般化能力を高めるためのフレームワークを提案する。
より一般的な表現を学ぶために、深層ニューラルネットワークにおける中間層の特徴マップを用い、注意機構を通じてその識別力を高めることを提案する。
さらに、dmlタスクにクラス不変機能を求めるためにディープモデルを実行するために、クラス逆ネットワークが利用される。
我々は、zsl設定で広く使われているマシンビジョンデータセットの作業を評価する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Deep Metric Learning for Computer Vision: A Brief Overview [4.980117530293724]
深層ニューラルネットワークを最適化する目的関数は、入力データの強化された特徴表現を作成する上で重要な役割を果たす。
Deep Metric Learningは、データサンプル間の類似度を測定する方法の開発を目指している。
本稿では、この領域における最近の進歩の概要と最先端のDeep Metric Learningアプローチについて論じる。
論文 参考訳(メタデータ) (2023-12-01T21:53:36Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Temporal Feature Alignment in Contrastive Self-Supervised Learning for
Human Activity Recognition [2.2082422928825136]
自己教師付き学習は通常、ラベルのないデータから深い特徴表現を学習するために使用される。
本稿では,時間空間に動的時間ワープアルゴリズムを組み込んで,時間次元で特徴を整列させる手法を提案する。
提案されたアプローチは、最近のSSLベースラインと比較して、ロバストな特徴表現を学習する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2022-10-07T07:51:01Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts [0.9054540533394924]
近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-26T20:08:37Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。