論文の概要: Towards Sustainable Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2210.11016v1
- Date: Thu, 20 Oct 2022 04:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:00:37.215969
- Title: Towards Sustainable Self-supervised Learning
- Title(参考訳): 持続的自己指導型学習を目指して
- Authors: Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan
- Abstract要約: 本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
- 参考スコア(独自算出の注目度): 193.78876000005366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although increasingly training-expensive, most self-supervised learning (SSL)
models have repeatedly been trained from scratch but not fully utilized, since
only a few SOTAs are employed for downstream tasks. In this work, we explore a
sustainable SSL framework with two major challenges: i) learning a stronger new
SSL model based on the existing pretrained SSL model, also called as "base"
model, in a cost-friendly manner, ii) allowing the training of the new model to
be compatible with various base models. We propose a Target-Enhanced
Conditional (TEC) scheme which introduces two components to the existing
mask-reconstruction based SSL. Firstly, we propose patch-relation enhanced
targets which enhances the target given by base model and encourages the new
model to learn semantic-relation knowledge from the base model by using
incomplete inputs. This hardening and target-enhancing help the new model
surpass the base model, since they enforce additional patch relation modeling
to handle incomplete input. Secondly, we introduce a conditional adapter that
adaptively adjusts new model prediction to align with the target of different
base models. Extensive experimental results show that our TEC scheme can
accelerate the learning speed, and also improve SOTA SSL base models, e.g., MAE
and iBOT, taking an explorative step towards sustainable SSL.
- Abstract(参考訳): トレーニングの強化がますます進んでいるが、ほとんどの自己教師付き学習(SSL)モデルはスクラッチから繰り返し訓練されているが、完全には活用されていない。
本研究では,2つの大きな課題を持つ,持続可能なSSLフレームワークについて検討する。
一 既存の事前訓練されたSSLモデルに基づくより強力な新しいSSLモデル(ベースモデルとも呼ばれる)を、コストに優しく学習すること。
二 新モデルのトレーニングを各種のベースモデルと互換性のあるものにすること。
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず,ベースモデルが与えるターゲットを強化するパッチ関係強化ターゲットを提案し,不完全入力を用いてベースモデルから意味関係の知識を学ぶことを奨励する。
このハードニングとターゲットエンハンシングは、不完全な入力を処理するために追加のパッチ関係モデルを適用するため、新しいモデルがベースモデルを上回るのに役立つ。
次に,新しいモデル予測を適応的に調整し,異なるベースモデルのターゲットに適合させる条件付きアダプタを提案する。
大規模な実験結果から,我々のTECスキームは学習速度を向上し,SOTA SSLベースモデル(MAEやiBOTなど)を改良し,持続可能なSSLに向けた爆発的な一歩を踏み出した。
関連論文リスト
- Efficient Training of Self-Supervised Speech Foundation Models on a
Compute Budget [57.807614181024114]
本稿では,限定的な計算予算の下で,自己教師付き学習(SSL)を用いて音声基礎モデルを効率的に訓練する方法を検討する。
モデルアーキテクチャ、モデルサイズ、データサイズなど、予算に影響を与えるSSLの重要な要因について検討する。
論文 参考訳(メタデータ) (2024-09-09T10:36:42Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module [3.42658286826597]
聴取者の平均オピニオンスコア(MOS)を予測する訓練可能な音声メトリックであるMooseNetを提案する。
本稿では,確率線形識別分析(PLDA)生成モデルを用いた新しい手法を提案する。
PLDAは136の発話でのみ訓練された場合,非微細なSSLモデルでうまく機能することを示す。
論文 参考訳(メタデータ) (2023-01-17T18:53:15Z) - A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning [54.617688468341704]
少ないショット学習は、限られたトレーニングサンプルを持つ新しいクラスに一般化するモデルを学ぶことを目的としている。
本研究では,(1)信頼できない擬似ラベルによる基本クラスと新クラスのあいまいさを緩和する高度に設計されたメタトレーニングアルゴリズム,(2)ラベルの少ないデータとラベルなしデータを用いて基礎知識を保ちながら,新クラスの識別的特徴を学習するモデル適応機構を提案する。
論文 参考訳(メタデータ) (2021-10-21T13:25:52Z) - Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot
Learning [82.07273754143547]
トレーニング中に見られないカテゴリにモデルを一般化するためのメタ連続ゼロショット学習(MCZSL)アプローチを提案する。
属性の自己決定とスケールしたクラス正規化をメタラーニングベースのトレーニングと組み合わせることで、最先端の成果を上回ることができるのです。
論文 参考訳(メタデータ) (2021-02-23T18:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。