論文の概要: Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained
Visual Categorization
- arxiv url: http://arxiv.org/abs/2401.08860v2
- Date: Mon, 26 Feb 2024 23:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:16:36.097897
- Title: Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained
Visual Categorization
- Title(参考訳): 自己教師付き細粒度視覚分類のためのクロスレベルマルチインスタンス蒸留
- Authors: Qi Bi and Wei Ji and Jingjun Yi and Haolan Zhan and Gui-Song Xia
- Abstract要約: 本稿では,粒度の細かいプレテキスト表現の課題を解決するために,クロスレベルマルチインスタンス蒸留(CMD)フレームワークを提案する。
私たちのキーとなる考え方は、複数のインスタンス学習による微細なプレテキスト表現の決定において、各イメージパッチの重要性を検討することです。
提案手法は,最新の手法を10.14%,既存の最先端の自己教師型学習手法を19.78%,トップ1精度とランク1検索基準の両方で上回っている。
- 参考スコア(独自算出の注目度): 41.86678318006878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality annotation of fine-grained visual categories demands great
expert knowledge, which is taxing and time consuming. Alternatively, learning
fine-grained visual representation from enormous unlabeled images (e.g.,
species, brands) by self-supervised learning becomes a feasible solution.
However, recent researches find that existing self-supervised learning methods
are less qualified to represent fine-grained categories. The bottleneck lies in
that the pre-text representation is built from every patch-wise embedding,
while fine-grained categories are only determined by several key patches of an
image. In this paper, we propose a Cross-level Multi-instance Distillation
(CMD) framework to tackle the challenge. Our key idea is to consider the
importance of each image patch in determining the fine-grained pre-text
representation by multiple instance learning. To comprehensively learn the
relation between informative patches and fine-grained semantics, the
multi-instance knowledge distillation is implemented on both the region/image
crop pairs from the teacher and student net, and the region-image crops inside
the teacher / student net, which we term as intra-level multi-instance
distillation and inter-level multi-instance distillation. Extensive experiments
on CUB-200-2011, Stanford Cars and FGVC Aircraft show that the proposed method
outperforms the contemporary method by upto 10.14% and existing
state-of-the-art self-supervised learning approaches by upto 19.78% on both
top-1 accuracy and Rank-1 retrieval metric.
- Abstract(参考訳): きめ細かい視覚カテゴリーの高品質なアノテーションは、税制と時間のかかる専門家の知識を必要とする。
あるいは、自己教師付き学習によって、巨大なラベルのない画像(種、ブランドなど)からきめ細かい視覚表現を学習することが、実現可能な解決策となる。
しかし,近年の研究では,従来の自己指導型学習手法では,細かなカテゴリを表現できないことが判明している。
ボトルネックは、プリテキスト表現がすべてのパッチ単位の埋め込みから構築されるのに対して、きめ細かいカテゴリはイメージのキーパッチによってのみ決定される点にある。
本稿では,この課題に対処するクロスレベルマルチインスタンス蒸留(CMD)フレームワークを提案する。
私たちの重要なアイデアは、複数のインスタンス学習によるきめ細かい事前テキスト表現を決定する上で、各イメージパッチの重要性を検討することです。
インフォメーションパッチと細粒度意味論の関係を包括的に学習するために、教師と学生ネットの地域/画像作物対と、教師/学生ネット内の地域画像作物の両方にマルチインテンス知識蒸留を行い、我々はインフォメーションレベルマルチインテンス蒸留及びインターレベルマルチインテンス蒸留を行う。
CUB-200-2011、スタンフォード・カーズ、FGVCエアクラフトの大規模な実験により、提案手法は現代の手法を最大10.14%上回り、既存の最先端の自己教師あり学習手法を最大19.78%上回った。
関連論文リスト
- Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Facing the Void: Overcoming Missing Data in Multi-View Imagery [0.783788180051711]
本稿では,この問題に頑健な多視点画像分類のための新しい手法を提案する。
提案手法は,最先端の深層学習とメートル法学習に基づいて,他のアプリケーションやドメインに容易に適応し,活用することができる。
その結果,提案アルゴリズムは,最先端手法と比較して,多視点画像分類精度の向上を図っている。
論文 参考訳(メタデータ) (2022-05-21T13:21:27Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Class-Balanced Distillation for Long-Tailed Visual Recognition [100.10293372607222]
実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。
本研究では、インスタンスサンプリングで学習した特徴表現が長尾設定では最適とは程遠いという重要な観察を行うことで、新しいフレームワークを提案する。
我々の主な貢献は、知識蒸留を利用して特徴表現を強化する新しい訓練方法である。
論文 参考訳(メタデータ) (2021-04-12T08:21:03Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。