論文の概要: Webly Supervised Semantic Embeddings for Large Scale Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2008.02880v1
- Date: Thu, 6 Aug 2020 21:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:55:08.322139
- Title: Webly Supervised Semantic Embeddings for Large Scale Zero-Shot Learning
- Title(参考訳): 大規模ゼロショット学習のためのウェブ監視型セマンティック埋め込み
- Authors: Yannick Le Cacheux, Adrian Popescu, Herv\'e Le Borgne
- Abstract要約: ゼロショット学習(ZSL)は、データセットからクラスの一部に対する視覚的なトレーニングデータがない場合に、画像内のオブジェクト認識を可能にする。
大規模ZSLのための意味クラスプロトタイプ設計の問題に焦点をあてる。
本稿では,写真に付随するノイズの多いテキストメタデータをテキストコレクションとして利用する方法について検討する。
- 参考スコア(独自算出の注目度): 8.472636806304273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) makes object recognition in images possible in
absence of visual training data for a part of the classes from a dataset. When
the number of classes is large, classes are usually represented by semantic
class prototypes learned automatically from unannotated text collections. This
typically leads to much lower performances than with manually designed semantic
prototypes such as attributes. While most ZSL works focus on the visual aspect
and reuse standard semantic prototypes learned from generic text collections,
we focus on the problem of semantic class prototype design for large scale ZSL.
More specifically, we investigate the use of noisy textual metadata associated
to photos as text collections, as we hypothesize they are likely to provide
more plausible semantic embeddings for visual classes if exploited
appropriately. We thus make use of a source-based voting strategy to improve
the robustness of semantic prototypes. Evaluation on the large scale ImageNet
dataset shows a significant improvement in ZSL performances over two strong
baselines, and over usual semantic embeddings used in previous works. We show
that this improvement is obtained for several embedding methods, leading to
state of the art results when one uses automatically created visual and text
features.
- Abstract(参考訳): ゼロショット学習(ZSL)は、データセットからクラスの一部に対する視覚的なトレーニングデータがない場合に、画像内のオブジェクト認識を可能にする。
クラス数が大きくなると、クラスは通常、注釈のないテキストコレクションから自動的に学習されるセマンティッククラスのプロトタイプで表現される。
これは通常、属性のような手作業で設計されたセマンティックプロトタイプよりもはるかにパフォーマンスが低い。
ほとんどのZSLは視覚的側面に重点を置いており、一般的なテキストコレクションから学習した標準的な意味的プロトタイプを再利用するが、我々は大規模ZSLのセマンティッククラスプロトタイプ設計の問題に焦点をあてる。
より具体的には、画像に関連付けられたノイズの多いテキストメタデータをテキストコレクションとして使用することを検討する。
そこで我々は,ソースベースの投票戦略を用いて,セマンティックプロトタイプのロバスト性を向上させる。
大規模なImageNetデータセットの評価では、2つの強いベースラインと、以前の作業で使用される通常のセマンティック埋め込みよりも、ZSLのパフォーマンスが大幅に向上した。
この改善はいくつかの埋め込み手法で得られており,視覚的特徴やテキスト的特徴を自動生成する場合に,その成果が得られた。
関連論文リスト
- Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Learning Semantic Ambiguities for Zero-Shot Learning [0.0]
本稿では,任意の条件生成型ZSL法に適用可能な正規化手法を提案する。
トレーニング時に利用できない意味記述が可能な差別的特徴を合成することを学ぶ。
この手法は、文献でよく用いられる4つのデータセット上で、ZSLとGZSLに対して評価される。
論文 参考訳(メタデータ) (2022-01-05T21:08:29Z) - Aligning Visual Prototypes with BERT Embeddings for Few-Shot Learning [48.583388368897126]
ほとんどショット学習は、これまで目に見えないイメージのカテゴリを認識するための学習である。
画像クラスの名称を考慮に入れた手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T08:08:28Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual
Descriptions [5.3556221126231085]
ゼロショット学習(ZSL)のための授業のリッチで多様なテキスト記述がImageNetに与える影響について検討する。
各 ImageNet クラスと対応する Wikipedia 記事に一致する新しいデータセット ImageNet-Wiki を作成します。
授業記述としてこれらのウィキペディア記事を用いると、以前の作品よりもはるかに高いZSL性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T14:06:56Z) - Zero-shot Learning with Deep Neural Networks for Object Recognition [8.572654816871873]
ゼロショット学習は、視覚的なトレーニングサンプルなしでオブジェクトを認識する能力を扱う。
本章では、ZSL問題に取り組むためのディープニューラルネットワークに基づくアプローチについてレビューする。
論文 参考訳(メタデータ) (2021-02-05T12:27:42Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。