論文の概要: iBOT: Image BERT Pre-Training with Online Tokenizer
- arxiv url: http://arxiv.org/abs/2111.07832v1
- Date: Mon, 15 Nov 2021 15:18:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 22:08:14.420552
- Title: iBOT: Image BERT Pre-Training with Online Tokenizer
- Title(参考訳): iBOT: Image BERT、オンライントケナイザーで事前トレーニング中
- Authors: Jinghao Zhou, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Yuille,
Tao Kong
- Abstract要約: マスク付き画像モデリング(MIM)について検討し,意味論的に意味のある視覚的トークン化手法の利点と課題を示す。
オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。
81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。
- 参考スコア(独自算出の注目度): 23.997853010642046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of language Transformers is primarily attributed to the pretext
task of masked language modeling (MLM), where texts are first tokenized into
semantically meaningful pieces. In this work, we study masked image modeling
(MIM) and indicate the advantages and challenges of using a semantically
meaningful visual tokenizer. We present a self-supervised framework iBOT that
can perform masked prediction with an online tokenizer. Specifically, we
perform self-distillation on masked patch tokens and take the teacher network
as the online tokenizer, along with self-distillation on the class token to
acquire visual semantics. The online tokenizer is jointly learnable with the
MIM objective and dispenses with a multi-stage training pipeline where the
tokenizer needs to be pre-trained beforehand. We show the prominence of iBOT by
achieving an 81.6% linear probing accuracy and an 86.3% fine-tuning accuracy
evaluated on ImageNet-1K. Beyond the state-of-the-art image classification
results, we underline emerging local semantic patterns, which helps the models
to obtain strong robustness against common corruptions and achieve leading
results on dense downstream tasks, eg., object detection, instance
segmentation, and semantic segmentation.
- Abstract(参考訳): 言語トランスフォーマーの成功は主に、テキストが意味のある部分にトークン化されるマスキング言語モデリング(MLM)のプレテキストタスクに起因している。
本研究では,マスク画像モデリング(mim)について検討し,意味的に意味のある視覚トークン化器の使用の利点と課題について述べる。
オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。
具体的には,マスクされたパッチトークンに対して自己蒸留を行い,教師ネットワークをオンライントークンとして,クラストークンを自己蒸留して視覚意味論を取得する。
オンライントークン化装置はMIMの目標と共同で学習可能であり、事前にトークン化装置を事前訓練する必要があるマルチステージトレーニングパイプラインを不要にする。
81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。
最新の画像分類結果の他に、局所的なセマンティックパターンが出現し、モデルが一般的な汚職に対して強い堅牢性を獲得し、下流の密集したタスクにおいてリードする結果を得るのに役立つ。
オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどです。
関連論文リスト
- Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。