論文の概要: What's in a Name? Beyond Class Indices for Image Recognition
- arxiv url: http://arxiv.org/abs/2304.02364v1
- Date: Wed, 5 Apr 2023 11:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 12:53:14.042836
- Title: What's in a Name? Beyond Class Indices for Image Recognition
- Title(参考訳): 名前の由来は?
画像認識のためのクラス指標を超えて
- Authors: Kai Han and Yandong Li and Sagar Vaze and Jie Li and Xuhui Jia
- Abstract要約: 本稿では,大規模かつ本質的に制約のないカテゴリの語彙のみを先行情報として与えられた画像にクラス名を割り当てる視覚言語モデルを提案する。
具体的には、データを反復的にクラスタリングし、内部のクラス名に投票することで、ImageNetのベースラインよりも約50%改善できることを示す。
- 参考スコア(独自算出の注目度): 31.68225941659493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing machine learning models demonstrate excellent performance in image
object recognition after training on a large-scale dataset under full
supervision. However, these models only learn to map an image to a predefined
class index, without revealing the actual semantic meaning of the object in the
image. In contrast, vision-language models like CLIP are able to assign
semantic class names to unseen objects in a `zero-shot' manner, although they
still rely on a predefined set of candidate names at test time. In this paper,
we reconsider the recognition problem and task a vision-language model to
assign class names to images given only a large and essentially unconstrained
vocabulary of categories as prior information. We use non-parametric methods to
establish relationships between images which allow the model to automatically
narrow down the set of possible candidate names. Specifically, we propose
iteratively clustering the data and voting on class names within them, showing
that this enables a roughly 50\% improvement over the baseline on ImageNet.
Furthermore, we tackle this problem both in unsupervised and partially
supervised settings, as well as with a coarse-grained and fine-grained search
space as the unconstrained dictionary.
- Abstract(参考訳): 既存の機械学習モデルは、完全な監視下で大規模なデータセットをトレーニングした後、画像オブジェクト認識において優れたパフォーマンスを示す。
しかし、これらのモデルは、イメージ内のオブジェクトの実際の意味を明らかにすることなく、事前に定義されたクラスインデックスにイメージをマッピングすることしか学ばない。
対照的に、clipのようなビジョン言語モデルは、テスト時に事前に定義された候補名セットに依存するが、'ゼロショット'な方法で、セマンティクスクラス名をセマンティクスオブジェクトに割り当てることができる。
本稿では,認識問題を再考し,大規模かつ本質的に制約のないカテゴリの語彙のみを先行情報とする画像にクラス名を付与する視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の関係を確立することで、モデルが候補名の集合を自動的に絞り込むことができる。
具体的には,データを反復的にクラスタリングし,クラス名に投票することで,imagenet のベースラインに対して約 50 % の改善を実現することを提案する。
さらに, 教師なし, 一部教師なしの設定でこの問題に対処し, 未制約辞書として粗粒度, 細粒度検索空間に対処した。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Learning to Name Classes for Vision and Language Models [57.0059455405424]
大規模な視覚と言語モデルは、クラス固有のテキストクエリを画像コンテンツにマッピングすることで、印象的なゼロショット認識性能を達成することができる。
視覚的コンテンツの機能として,各クラスに対して最適な単語埋め込みを学習するために,利用可能なデータを活用することを提案する。
凍結したモデルに新しい単語の埋め込みを学習することで、新しいクラスに対してゼロショットの能力を保ち、新しいデータセットにモデルを適応しやすくし、潜在的に誤った、非記述的、曖昧なクラス名を調整することができる。
論文 参考訳(メタデータ) (2023-04-04T14:34:44Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Exploiting Category Names for Few-Shot Classification with
Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-29T21:08:46Z) - Semantic-Enhanced Image Clustering [6.218389227248297]
本稿では,視覚言語事前学習モデルの助けを借りて,画像クラスタリングの課題について検討する。
イメージを適切なセマンティック空間にマップする方法と、イメージとセマンティック空間の両方からイメージをクラスタリングする方法は、2つの重要な問題である。
本稿では,与えられた画像を適切な意味空間にマッピングする手法を提案し,画像と意味論の関係に応じて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2022-08-21T09:04:21Z) - Improving Few-shot Learning with Weakly-supervised Object Localization [24.3569501375842]
画像のクラス関連領域から特徴を抽出してクラス表現を生成する新しいフレームワークを提案する。
提案手法は, miniImageNet および tieredImageNet ベンチマークにおいて,ベースライン数ショットモデルよりも優れている。
論文 参考訳(メタデータ) (2021-05-25T07:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。