論文の概要: Visual Representation Learning with Self-Supervised Attention for
Low-Label High-data Regime
- arxiv url: http://arxiv.org/abs/2201.08951v1
- Date: Sat, 22 Jan 2022 02:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 11:29:07.179182
- Title: Visual Representation Learning with Self-Supervised Attention for
Low-Label High-data Regime
- Title(参考訳): 低ラベル高データレジームのための自己監視型視覚表現学習
- Authors: Prarthana Bhattacharyya, Chenge Li, Xiaonan Zhao, Istv\'an
Feh\'erv\'ari and Jason Sun
- Abstract要約: 自己監督型ビジョントランスフォーマー(SSL-ViT)は、低ラベルで高データ状態の2つの重要なコンピュータビジョンタスクに適応することができる。
数ショットのイメージ分類では、SSL-ViTを外部データに監視せずにトレーニングし、このトレーニング済み埋め込みを使用して、ラベル数が限られている新しいクラスに迅速に適応します。
ゼロショット画像検索には、ラベルのない大規模なデータセットで事前トレーニングされたSSL-ViTを使用し、いくつかのメトリック学習目標でそれらを微調整する。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervision has shown outstanding results for natural language
processing, and more recently, for image recognition. Simultaneously, vision
transformers and its variants have emerged as a promising and scalable
alternative to convolutions on various computer vision tasks. In this paper, we
are the first to question if self-supervised vision transformers (SSL-ViTs) can
be adapted to two important computer vision tasks in the low-label, high-data
regime: few-shot image classification and zero-shot image retrieval. The
motivation is to reduce the number of manual annotations required to train a
visual embedder, and to produce generalizable, semantically meaningful and
robust embeddings. For few-shot image classification we train SSL-ViTs without
any supervision, on external data, and use this trained embedder to adapt
quickly to novel classes with limited number of labels. For zero-shot image
retrieval, we use SSL-ViTs pre-trained on a large dataset without any labels
and fine-tune them with several metric learning objectives. Our self-supervised
attention representations outperforms the state-of-the-art on several public
benchmarks for both tasks, namely miniImageNet and CUB200 for few-shot image
classification by up-to 6%-10%, and Stanford Online Products, Cars196 and
CUB200 for zero-shot image retrieval by up-to 4%-11%. Code is available at
\url{https://github.com/AutoVision-cloud/SSL-ViT-lowlabel-highdata}.
- Abstract(参考訳): 自己スーパービジョンは自然言語処理、最近では画像認識において優れた結果を示している。
同時に、ビジョントランスフォーマーとその変種は、様々なコンピュータビジョンタスクの畳み込みに代わる有望でスケーラブルな代替品として登場した。
本稿では,少ショット画像分類とゼロショット画像検索の2つの重要なコンピュータビジョンタスクに対して,自己監督型ビジョントランスフォーマー(SSL-ViT)を適用できるかどうかを疑問視する。
その動機は、視覚的な埋め込みの訓練に必要な手動アノテーションの数を減らし、一般化可能で意味があり、堅牢な埋め込みを生成することである。
数ショットのイメージ分類では、SSL-ViTを外部データに監視せずにトレーニングし、このトレーニング済み埋め込みを使用して、ラベル数が限られている新しいクラスに迅速に適応します。
ゼロショット画像検索では、ラベルのない大きなデータセットで事前トレーニングされたssl-vitsを使用して、いくつかのメトリック学習目的を微調整する。
私たちの自己監督型アテンション表現は、両方のタスクに対するいくつかの公開ベンチマーク、例えば、スクリーンショット画像分類のための miniImageNet と CUB200 、ゼロショット画像検索のための Stanford Online Products, Cars196 と CUB200 を 4%-11% 上回っている。
コードは \url{https://github.com/autovision-cloud/ssl-vit-lowlabel-highdata} で入手できる。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Multi-label Iterated Learning for Image Classification with Label
Ambiguity [3.5736176624479654]
単一ラベルからの多ラベル学習の帰納バイアスを組み込むために,多ラベル反復学習(MILe)を提案する。
MILeは、バイナリ予測を伝搬することにより、画像のマルチラベル記述を構築する、シンプルだが効果的な手順である。
我々は,MILeがラベルノイズを効果的に低減し,WebVisionのような実世界の大規模ノイズデータに対して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-11-23T22:10:00Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。