論文の概要: Can Vision Transformers Learn without Natural Images?
- arxiv url: http://arxiv.org/abs/2103.13023v1
- Date: Wed, 24 Mar 2021 07:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:00:28.840283
- Title: Can Vision Transformers Learn without Natural Images?
- Title(参考訳): 視覚トランスフォーマーは自然画像なしで学習できるのか?
- Authors: Kodai Nakashima, Hirokatsu Kataoka, Asato Matsumoto, Kenji Iwata and
Nakamasa Inoue
- Abstract要約: 画像収集やアノテーションを使わずにViT(Vision Transformer)を事前訓練する。
提案したフレームワークが,高度な自己監督学習(SSL)手法を部分的に上回ることを実験的に検証した。
自然画像なしで事前に訓練された ViT は、ImageNet のプリトレーニングされた ViT からいくつかの異なる視覚化を生成しますが、自然画像データセットを広範囲に解釈できます。
- 参考スコア(独自算出の注目度): 17.737343153970482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we complete pre-training of Vision Transformers (ViT) without natural
images and human-annotated labels? Although a pre-trained ViT seems to heavily
rely on a large-scale dataset and human-annotated labels, recent large-scale
datasets contain several problems in terms of privacy violations, inadequate
fairness protection, and labor-intensive annotation. In the present paper, we
pre-train ViT without any image collections and annotation labor. We
experimentally verify that our proposed framework partially outperforms
sophisticated Self-Supervised Learning (SSL) methods like SimCLRv2 and MoCov2
without using any natural images in the pre-training phase. Moreover, although
the ViT pre-trained without natural images produces some different
visualizations from ImageNet pre-trained ViT, it can interpret natural image
datasets to a large extent. For example, the performance rates on the CIFAR-10
dataset are as follows: our proposal 97.6 vs. SimCLRv2 97.4 vs. ImageNet 98.0.
- Abstract(参考訳): 視覚変換器(ViT)の自然画像と人名ラベルなしで事前学習を完了できるか?
事前トレーニングされたViTは、大規模なデータセットと人間による注釈付きラベルに大きく依存しているように見えるが、最近の大規模なデータセットには、プライバシ違反、不適切な公正保護、労働集約アノテーションといったいくつかの問題が含まれている。
本稿では,画像の収集やアノテーションを使わずにViTを事前訓練する。
提案手法は,SimCLRv2 や MoCov2 のような高度な自己監督学習(SSL)手法を,事前学習フェーズにおいて自然画像を用いることなく部分的に上回っていることを実験的に検証した。
さらに、自然画像なしで事前トレーニングされたViTは、ImageNetで事前トレーニングされたViTからいくつかの異なる視覚化を生成するが、自然画像データセットを広範囲に解釈することができる。
例えば、CIFAR-10データセットのパフォーマンスは以下の通りである。
関連論文リスト
- Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - Replacing Labeled Real-image Datasets with Auto-generated Contours [20.234550996148748]
公式駆動型教師あり学習は,実画像を用いることなく,ImageNet-21kのそれと一致したり,超えたりできることを示す。
公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。
論文 参考訳(メタデータ) (2022-06-18T06:43:38Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - DiT: Self-supervised Pre-training for Document Image Transformer [85.78807512344463]
自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2022-03-04T15:34:46Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - Visual Representation Learning with Self-Supervised Attention for
Low-Label High-data Regime [0.41998444721319217]
自己監督型ビジョントランスフォーマー(SSL-ViT)は、低ラベルで高データ状態の2つの重要なコンピュータビジョンタスクに適応することができる。
数ショットのイメージ分類では、SSL-ViTを外部データに監視せずにトレーニングし、このトレーニング済み埋め込みを使用して、ラベル数が限られている新しいクラスに迅速に適応します。
ゼロショット画像検索には、ラベルのない大規模なデータセットで事前トレーニングされたSSL-ViTを使用し、いくつかのメトリック学習目標でそれらを微調整する。
論文 参考訳(メタデータ) (2022-01-22T02:37:07Z) - PASS: An ImageNet replacement for self-supervised pretraining without
humans [152.3252728876108]
本稿では,自己スーパービジョンのためのHumAnsを含まないPASS:Picturesを提案する。
PASSは、CC-BYライセンスのイメージと、著作権問題に対処する完全な属性メタデータのみを含む。
PASS は MoCo-v2, SwAV, DINO などの手法で事前訓練できることを示す。
PASSは、例えばベンチマークに不十分なため、既存のデータセットを陳腐化しない。しかしながら、より安全なデータを使用して、モデル事前トレーニングがしばしば可能であることを示し、事前トレーニングメソッドをより堅牢に評価する基盤を提供する。
論文 参考訳(メタデータ) (2021-09-27T17:59:39Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。