論文の概要: What's in a Name? Beyond Class Indices for Image Recognition
- arxiv url: http://arxiv.org/abs/2304.02364v1
- Date: Wed, 5 Apr 2023 11:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:53:14.042836
- Title: What's in a Name? Beyond Class Indices for Image Recognition
- Title(参考訳): 名前の由来は?
画像認識のためのクラス指標を超えて
- Authors: Kai Han and Yandong Li and Sagar Vaze and Jie Li and Xuhui Jia
- Abstract要約: 本稿では,大規模かつ本質的に制約のないカテゴリの語彙のみを先行情報として与えられた画像にクラス名を割り当てる視覚言語モデルを提案する。
具体的には、データを反復的にクラスタリングし、内部のクラス名に投票することで、ImageNetのベースラインよりも約50%改善できることを示す。
- 参考スコア(独自算出の注目度): 31.68225941659493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing machine learning models demonstrate excellent performance in image
object recognition after training on a large-scale dataset under full
supervision. However, these models only learn to map an image to a predefined
class index, without revealing the actual semantic meaning of the object in the
image. In contrast, vision-language models like CLIP are able to assign
semantic class names to unseen objects in a `zero-shot' manner, although they
still rely on a predefined set of candidate names at test time. In this paper,
we reconsider the recognition problem and task a vision-language model to
assign class names to images given only a large and essentially unconstrained
vocabulary of categories as prior information. We use non-parametric methods to
establish relationships between images which allow the model to automatically
narrow down the set of possible candidate names. Specifically, we propose
iteratively clustering the data and voting on class names within them, showing
that this enables a roughly 50\% improvement over the baseline on ImageNet.
Furthermore, we tackle this problem both in unsupervised and partially
supervised settings, as well as with a coarse-grained and fine-grained search
space as the unconstrained dictionary.
- Abstract(参考訳): 既存の機械学習モデルは、完全な監視下で大規模なデータセットをトレーニングした後、画像オブジェクト認識において優れたパフォーマンスを示す。
しかし、これらのモデルは、イメージ内のオブジェクトの実際の意味を明らかにすることなく、事前に定義されたクラスインデックスにイメージをマッピングすることしか学ばない。
対照的に、clipのようなビジョン言語モデルは、テスト時に事前に定義された候補名セットに依存するが、'ゼロショット'な方法で、セマンティクスクラス名をセマンティクスオブジェクトに割り当てることができる。
本稿では,認識問題を再考し,大規模かつ本質的に制約のないカテゴリの語彙のみを先行情報とする画像にクラス名を付与する視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の関係を確立することで、モデルが候補名の集合を自動的に絞り込むことができる。
具体的には,データを反復的にクラスタリングし,クラス名に投票することで,imagenet のベースラインに対して約 50 % の改善を実現することを提案する。
さらに, 教師なし, 一部教師なしの設定でこの問題に対処し, 未制約辞書として粗粒度, 細粒度検索空間に対処した。
関連論文リスト
- Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Exploiting Category Names for Few-Shot Classification with
Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-29T21:08:46Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。