論文の概要: How Well Self-Supervised Pre-Training Performs with Streaming Data?
- arxiv url: http://arxiv.org/abs/2104.12081v1
- Date: Sun, 25 Apr 2021 06:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:56:20.792977
- Title: How Well Self-Supervised Pre-Training Performs with Streaming Data?
- Title(参考訳): セルフ教師付き事前トレーニングは、ストリーミングデータでどのように機能するか?
- Authors: Dapeng Hu, Qizhengqiu Lu, Lanqing Hong, Hailin Hu, Yifan Zhang,
Zhenguo Li, Alfred Shen, Jiashi Feng
- Abstract要約: ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。
ストリーミングデータでどのように連続的な自己監督プリトレーニングが実行されるかは不明です。
ストリーミングデータ内の分散シフトが軽度である場合,逐次自己教師付き学習は共同学習とほぼ同等の性能を示す。
- 参考スコア(独自算出の注目度): 73.5362286533602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The common self-supervised pre-training practice requires collecting massive
unlabeled data together and then trains a representation model, dubbed
\textbf{joint training}. However, in real-world scenarios where data are
collected in a streaming fashion, the joint training scheme is usually
storage-heavy and time-consuming. A more efficient alternative is to train a
model continually with streaming data, dubbed \textbf{sequential training}.
Nevertheless, it is unclear how well sequential self-supervised pre-training
performs with streaming data. In this paper, we conduct thorough experiments to
investigate self-supervised pre-training with streaming data. Specifically, we
evaluate the transfer performance of sequential self-supervised pre-training
with four different data sequences on three different downstream tasks and make
comparisons with joint self-supervised pre-training. Surprisingly, we find
sequential self-supervised learning exhibits almost the same performance as the
joint training when the distribution shifts within streaming data are mild.
Even for data sequences with large distribution shifts, sequential
self-supervised training with simple techniques, e.g., parameter regularization
or data replay, still performs comparably to joint training. Based on our
findings, we recommend using sequential self-supervised training as a
\textbf{more efficient yet performance-competitive} representation learning
practice for real-world applications.
- Abstract(参考訳): 一般的な自己教師付き事前訓練のプラクティスでは、大量のラベルのないデータをまとめて収集し、 \textbf{joint training} と呼ばれる表現モデルをトレーニングする必要がある。
しかしながら、ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。
より効率的な代替手段は、‘textbf{sequential training}’と呼ばれるストリーミングデータでモデルを継続的にトレーニングすることだ。
それでも、逐次的自己教師付き事前学習がストリーミングデータでどのように機能するかは不明だ。
本稿では,ストリーミングデータを用いた自己教師型事前学習の徹底的な実験を行う。
具体的には,3つの下流タスクにおける4つの異なるデータ列を用いた連続自己教師事前訓練の転送性能を評価し,共同自己教師事前訓練との比較を行った。
驚くべきことに、ストリーミングデータ内の分散シフトが穏やかな場合、逐次自己教師型学習は関節トレーニングとほぼ同等のパフォーマンスを示す。
分散シフトが大きいデータシーケンスであっても、パラメータ正規化やデータリプレイといった単純なテクニックによる逐次自己教師付きトレーニングは、共同トレーニングと相性がよい。
そこで本研究では,実世界のアプリケーションに対して,逐次的自己教師型トレーニングを,より効率的かつパフォーマンスに優れた表現学習プラクティスとして用いることを推奨する。
関連論文リスト
- Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - SOTASTREAM: A Streaming Approach to Machine Translation Training [13.39347756245191]
多くの機械翻訳ツールキットは、生データをトレーナーが直接使用できるテンソル形式に変換するデータ準備ステップを利用する。
本稿では,そのデータ消費からデータ生成を分離する代替手法を提案する。
このアプローチでは、個別の事前処理ステップはなく、データ生成は生のトレーニングデータの置換の無限のストリームを生成する。
論文 参考訳(メタデータ) (2023-08-14T22:47:19Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - The Challenges of Continuous Self-Supervised Learning [40.941767578622745]
自己教師付き学習(SSL)は、表現学習における主要なボトルネックの1つ、すなわち人間のアノテーションの必要性を取り除くことを目的としている。
このような連続的なセットアップに対する現在の手法の直接的な適用は、計算量と必要なデータ量の両方において非効率であることを示す。
本稿では,非効率性や時間的相関の問題を緩和する手法として,リプレイバッファの利用を提案する。
論文 参考訳(メタデータ) (2022-03-23T20:05:06Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。