論文の概要: iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2204.10760v1
- Date: Fri, 22 Apr 2022 15:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:14:42.837701
- Title: iCAR: Bridging Image Classification and Image-text Alignment for Visual
Recognition
- Title(参考訳): iCAR:視覚認識のための画像分類と画像テキストアライメント
- Authors: Yixuan Wei, Yue Cao, Zheng Zhang, Zhuliang Yao, Zhenda Xie, Han Hu,
Baining Guo
- Abstract要約: 画像分類は,過去10年間の視覚的表現学習における主要なアプローチである。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において、有望なパフォーマンスを示すようになった。
本稿では,2つの学習課題を効果的に橋渡しする3つの適応型深層融合法を提案する。
- 参考スコア(独自算出の注目度): 33.2800417526215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classification, which classifies images by pre-defined categories, has
been the dominant approach to visual representation learning over the last
decade. Visual learning through image-text alignment, however, has emerged to
show promising performance, especially for zero-shot recognition. We believe
that these two learning tasks are complementary, and suggest combining them for
better visual learning. We propose a deep fusion method with three adaptations
that effectively bridge two learning tasks, rather than shallow fusion through
naive multi-task learning. First, we modify the previous common practice in
image classification, a linear classifier, with a cosine classifier which shows
comparable performance. Second, we convert the image classification problem
from learning parametric category classifier weights to learning a text encoder
as a meta network to generate category classifier weights. The learnt text
encoder is shared between image classification and image-text alignment. Third,
we enrich each class name with a description to avoid confusion between classes
and make the classification method closer to the image-text alignment. We prove
that this deep fusion approach performs better on a variety of visual
recognition tasks and setups than the individual learning or shallow fusion
approach, from zero-shot/few-shot image classification, such as the Kornblith
12-dataset benchmark, to downstream tasks of action recognition, semantic
segmentation, and object detection in fine-tuning and open-vocabulary settings.
The code will be available at https://github.com/weiyx16/iCAR.
- Abstract(参考訳): 画像分類は、予め定義されたカテゴリでイメージを分類するが、この10年間、ビジュアル表現学習の主流となっている。
しかし、画像テキストアライメントによる視覚学習は、特にゼロショット認識において有望なパフォーマンスを示すようになった。
これら2つの学習課題は相補的であり,視覚的学習のために組み合わせることを提案する。
本研究では,2つの学習タスクを効果的にブリッジする3つの適応による深層融合法を提案する。
まず,画像分類における従来の慣習である線形分類器を,比較性能を示すコサイン分類器を用いて修正する。
次に、画像分類問題をパラメトリック分類器重み学習からメタネットワークとしてのテキストエンコーダ学習に変換し、分類器重みを生成する。
学習テキストエンコーダは、画像分類と画像テキストアライメントの間で共有される。
第3に、クラス間の混乱を回避し、画像テキストアライメントに近い分類方法を実現するために、各クラス名を記述で強化する。
我々は,この深層融合アプローチが,Kunblith 12-datasetベンチマークのようなゼロショット/フェーショット画像分類から,微調整およびオープン語彙設定における動作認識,セマンティックセグメンテーション,オブジェクト検出といった下流タスクに至るまで,個々の学習や浅部融合アプローチよりも,様々な視覚的タスクやセットアップに優れていることを証明した。
コードはhttps://github.com/weiyx16/iCARで入手できる。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning to Focus: Cascaded Feature Matching Network for Few-shot Image
Recognition [38.49419948988415]
ディープネットワークは、多数の画像でトレーニングすることで、カテゴリのオブジェクトを正確に認識することを学ぶことができる。
低ショット画像認識タスク(low-shot image recognition task)として知られるメタラーニングの課題は、1つのカテゴリの認識モデルを学ぶためにアノテーション付き画像しか利用できない場合に発生する。
この問題を解決するため,Cascaded Feature Matching Network (CFMN) と呼ばれる手法を提案する。
EmphminiImageNet と Omniglot の2つの標準データセットを用いた数ショット学習実験により,本手法の有効性が確認された。
論文 参考訳(メタデータ) (2021-01-13T11:37:28Z) - Grafit: Learning fine-grained image representations with coarse labels [114.17782143848315]
本稿では,学習ラベルの提供するものよりも細かな表現を学習する問題に対処する。
粗いラベルと下層の細粒度潜在空間を併用することにより、カテゴリレベルの検索手法の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-11-25T19:06:26Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - One-Shot Image Classification by Learning to Restore Prototypes [11.448423413463916]
ワンショット画像分類は、カテゴリ毎に1つの画像しか持たないデータセット上で、イメージ分類器を訓練することを目的としている。
ワンショット学習では、既存のメトリック学習アプローチは、単一のトレーニングイメージがクラスを代表するものではない可能性があるため、パフォーマンスが低下する。
本稿では,RestoreNet で表される単純な回帰モデルを提案する。画像特徴のクラス変換を学習し,特徴空間のクラス中心に画像を移動させる。
論文 参考訳(メタデータ) (2020-05-04T02:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。