論文の概要: Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual
Descriptions
- arxiv url: http://arxiv.org/abs/2103.09669v1
- Date: Wed, 17 Mar 2021 14:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 12:57:48.631975
- Title: Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual
Descriptions
- Title(参考訳): リッチで多様なテキスト記述による大規模ゼロショット画像分類
- Authors: Sebastian Bujwid, Josephine Sullivan
- Abstract要約: ゼロショット学習(ZSL)のための授業のリッチで多様なテキスト記述がImageNetに与える影響について検討する。
各 ImageNet クラスと対応する Wikipedia 記事に一致する新しいデータセット ImageNet-Wiki を作成します。
授業記述としてこれらのウィキペディア記事を用いると、以前の作品よりもはるかに高いZSL性能が得られることを示す。
- 参考スコア(独自算出の注目度): 5.3556221126231085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the impact of using rich and diverse textual descriptions of classes
for zero-shot learning (ZSL) on ImageNet. We create a new dataset ImageNet-Wiki
that matches each ImageNet class to its corresponding Wikipedia article. We
show that merely employing these Wikipedia articles as class descriptions
yields much higher ZSL performance than prior works. Even a simple model using
this type of auxiliary data outperforms state-of-the-art models that rely on
standard features of word embedding encodings of class names. These results
highlight the usefulness and importance of textual descriptions for ZSL, as
well as the relative importance of auxiliary data type compared to algorithmic
progress. Our experimental results also show that standard zero-shot learning
approaches generalize poorly across categories of classes.
- Abstract(参考訳): ゼロショット学習(ZSL)のための授業のリッチで多様なテキスト記述がImageNetに与える影響について検討する。
我々は、imagenetクラスと対応するwikipediaの記事にマッチする新しいデータセットimagenet-wikiを作成する。
これらの項目をクラス記述として活用するだけで,従来よりもZSLの性能が向上することを示す。
この種の補助データを使用する単純なモデルでさえ、クラス名のワードエンベッドエンコーディングの標準的な特徴に依存する最先端モデルよりも優れている。
これらの結果は、ZSLにおけるテキスト記述の有用性と重要性、およびアルゴリズムの進歩と比較して補助データ型の重要性を強調した。
また, 標準ゼロショット学習手法は, クラスにまたがって, 汎用性に乏しいことを示した。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Data-Free Generalized Zero-Shot Learning [45.86614536578522]
データフリーゼロショット学習(DFZSL)のための汎用フレームワークを提案する。
我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベース・ツー・ニューZSLの11のベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-01-28T13:26:47Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Exploiting Category Names for Few-Shot Classification with
Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-29T21:08:46Z) - Self-Supervised Learning for Fine-Grained Image Classification [0.0]
きめ細かいデータセットは通常、分類プロセスを支援するために、クラスラベルとともにバウンディングボックスアノテーションを提供する。
一方、自己教師付き学習では、自由に利用可能なデータを利用してラベルとして機能する監視信号を生成する。
我々の考えは、モデルが微細な画像クラスの有用な表現を学習できるように、自己スーパービジョンを活用することである。
論文 参考訳(メタデータ) (2021-07-29T14:01:31Z) - Zero-shot Learning with Class Description Regularization [10.739164530098755]
生成型ZSLモデルに対して,各カテゴリの記述により多くの注意を払うことを促す,新たな正規化形式を導入する。
実験結果から, 一般化ゼロショット認識・分類の課題において, 複数の最先端モデルの性能向上を実証した。
論文 参考訳(メタデータ) (2021-06-30T14:56:15Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Zero-Shot Learning from scratch (ZFS): leveraging local compositional
representations [25.449244103599106]
ゼロショット分類は、訓練中にターゲットクラスからインスタンスが見えないような一般化タスクである。
テスト時間転送を可能にするために、各クラスは、属性やテキスト記述の形式で、意味情報で注釈付けされる。
イメージベンチマークで最高の絶対性能を達成するアプローチは、Imagenetで事前訓練されたエンコーダから抽出された機能に依存している。
我々はZFS(Zero-Shot Learning from scratch)を提案し、他のデータセットで微調整されたエンコーダの使用を明示的に禁止する。
論文 参考訳(メタデータ) (2020-10-22T23:11:18Z) - Webly Supervised Semantic Embeddings for Large Scale Zero-Shot Learning [8.472636806304273]
ゼロショット学習(ZSL)は、データセットからクラスの一部に対する視覚的なトレーニングデータがない場合に、画像内のオブジェクト認識を可能にする。
大規模ZSLのための意味クラスプロトタイプ設計の問題に焦点をあてる。
本稿では,写真に付随するノイズの多いテキストメタデータをテキストコレクションとして利用する方法について検討する。
論文 参考訳(メタデータ) (2020-08-06T21:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。