論文の概要: Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language
- arxiv url: http://arxiv.org/abs/2212.07525v2
- Date: Thu, 15 Jun 2023 15:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:43:47.393469
- Title: Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language
- Title(参考訳): 視覚・音声・言語のための文脈化目標表現を用いた効率的な自己教師付き学習
- Authors: Alexei Baevski, Arun Babu, Wei-Ning Hsu, Michael Auli
- Abstract要約: data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
- 参考スコア(独自算出の注目度): 60.12197397018094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current self-supervised learning algorithms are often modality-specific and
require large amounts of computational resources. To address these issues, we
increase the training efficiency of data2vec, a learning objective that
generalizes across several modalities. We do not encode masked tokens, use a
fast convolutional decoder and amortize the effort to build teacher
representations. data2vec 2.0 benefits from the rich contextualized target
representations introduced in data2vec which enable a fast self-supervised
learner. Experiments on ImageNet-1K image classification show that data2vec 2.0
matches the accuracy of Masked Autoencoders in 16.4x lower pre-training time,
on Librispeech speech recognition it performs as well as wav2vec 2.0 in 10.6x
less time, and on GLUE natural language understanding it matches a retrained
RoBERTa model in half the time. Trading some speed for accuracy results in
ImageNet-1K top-1 accuracy of 86.8\% with a ViT-L model trained for 150 epochs.
- Abstract(参考訳): 現在の自己教師付き学習アルゴリズムは、しばしば様相特異的であり、大量の計算リソースを必要とする。
これらの課題に対処するため,複数のモダリティにまたがる学習目標であるData2vecのトレーニング効率を向上する。
マスクされたトークンをエンコードせず、高速畳み込みデコーダを使用し、教師の表現を構築する努力を償却します。
data2vec 2.0は、data2vecで導入された豊富なコンテキスト化されたターゲット表現の恩恵を受ける。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍の事前学習時間でMasked Autoencodersの精度、Librispeech音声認識では10.6倍の時間でwav2vec 2.0、GLUE自然言語では再訓練されたRoBERTaモデルと半分の時間で一致している。
ImageNet-1K トップ-1 の精度は 86.8 % となり、ViT-L モデルは150エポックで訓練された。
関連論文リスト
- TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens [9.453667770656644]
汎用, OCR, 接地作業において, 画像トークンの16倍の精度で, きめ細かな認識と, 最先端の性能を示すバイリンガルLVLMであるTextHawk2を提案する。
我々は、LVLMコトレーニングを通じて視覚エンコーダを強化し、中国のOCRや接地のようなこれまで目に見えないタスクの可能性を解き放つ。
我々はTextHawk2を複数のベンチマークで評価し、継続的に優れたパフォーマンスを提供し、同様のスケールのクローズドソースモデルより優れています。
論文 参考訳(メタデータ) (2024-10-07T17:58:35Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - MAGE: MAsked Generative Encoder to Unify Representation Learning and
Image Synthesis [33.46831766206675]
MASked Generative (MAGE)は、SOTA画像生成と自己教師付き表現学習を統合するための最初のフレームワークである。
以前の生成モデルにインスパイアされたMAGEは、入力と出力でベクトル量子化されたGANによって学習された意味トークンを使用する。
ImageNet-1Kでは、1つのMAGE ViT-Lモデルがクラス非条件画像生成のタスクで9.10 FIDを得る。
論文 参考訳(メタデータ) (2022-11-16T18:59:02Z) - Expanding Language-Image Pretrained Models for General Video Recognition [136.0948049010682]
対照的な言語画像事前学習は,Webスケールデータから視覚・テキスト共同表現を学習する上で大きな成功を収めている。
本稿では,事前学習した言語イメージモデルをビデオ認識に直接適応させる,シンプルで効果的な手法を提案する。
我々の手法は、2つの一般的なプロトコルでトップ1の精度で、現在の最先端の手法を+7.6%、+14.9%上回る。
論文 参考訳(メタデータ) (2022-08-04T17:59:54Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Wav2vec-C: A Self-supervised Model for Speech Representation Learning [40.47940210640496]
Wav2vec-Cは、wav2vec 2.0とVQ-VAEの要素を組み合わせた表現学習技術です。
提案する自己教師付きモデルはラベルなしデータ10k時間,ラベル付きデータ1k時間で微調整される。
論文 参考訳(メタデータ) (2021-03-09T16:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。