論文の概要: Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining
- arxiv url: http://arxiv.org/abs/2407.00935v1
- Date: Mon, 1 Jul 2024 03:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:55:54.628296
- Title: Look Ahead or Look Around? A Theoretical Comparison Between Autoregressive and Masked Pretraining
- Title(参考訳): 見回すか見回すか? 自己回帰と仮面前訓練の理論的比較
- Authors: Qi Zhang, Tianqi Du, Haotian Huang, Yifei Wang, Yisen Wang,
- Abstract要約: 自己回帰型SSLとマスク型SSLの2つの主要な生成型SSLパラダイム間の最初の理論的比較を確立する。
分類タスクでは、マスクされたSSLにおけるターゲットトークンの柔軟性により、よりサンプル間の接続が促進される。
コンテンツ生成タスクでは、テストサンプルの柔軟な長さと未翻訳テキストの固定長との相違が、その生成性能を妨げる。
- 参考スコア(独自算出の注目度): 34.64600580301882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the rise of generative self-supervised learning (SSL) paradigms has exhibited impressive performance across visual, language, and multi-modal domains. While the varied designs of generative SSL objectives lead to distinct properties in downstream tasks, a theoretical understanding of these differences remains largely unexplored. In this paper, we establish the first theoretical comparisons between two leading generative SSL paradigms: autoregressive SSL and masked SSL. Through establishing theoretical frameworks, we elucidate the strengths and limitations of autoregressive and masked SSL within the primary evaluation tasks of classification and content generation. Our findings demonstrate that in classification tasks, the flexibility of targeted tokens in masked SSL fosters more inter-sample connections compared to the fixed position of target tokens in autoregressive SSL, which yields superior clustering performance. In content generation tasks, the misalignment between the flexible lengths of test samples and the fixed length of unmasked texts in masked SSL (vs. flexible lengths of conditional texts in autoregressive SSL) hinders its generation performance. To leverage each other's strengths and mitigate weaknesses, we propose diversity-enhanced autoregressive and variable-length masked objectives, which substantially improve the classification performance of autoregressive SSL and the generation performance of masked SSL. Code is available at https://github.com/PKU-ML/LookAheadLookAround.
- Abstract(参考訳): 近年、生成的自己教師型学習(SSL)パラダイムの台頭は、視覚、言語、マルチモーダルドメインにまたがる顕著なパフォーマンスを示している。
生成的SSL目的の様々な設計は下流のタスクにおいて異なる特性をもたらすが、これらの違いに関する理論的理解はほとんど未解明のままである。
本稿では,自己回帰型SSLとマスク型SSLの2つの主要な生成的SSLパラダイム間の最初の理論的比較を確立する。
理論的な枠組みを確立することにより、分類とコンテンツ生成の主要な評価タスクにおいて、自己回帰とマスク付きSSLの長所と短所を解明する。
分類タスクにおいて,マスクされたSSLにおけるターゲットトークンの柔軟性は,自己回帰型SSLにおけるターゲットトークンの固定位置と比較して,より多くのサンプル間接続が促進され,クラスタリング性能が向上することを示す。
コンテンツ生成タスクでは、テストサンプルの柔軟な長さとマスク付きSSL(vs. 自己回帰SSLにおける条件付きテキストの柔軟な長さ)の固定長との相違が、その生成性能を妨げる。
本研究では,自己回帰型SSLの分類性能とマスク型SSLの生成性能を大幅に向上させる,多様性向上型自己回帰型および可変長マスク型目標を提案する。
コードはhttps://github.com/PKU-ML/LookAheadLookAround.comで入手できる。
関連論文リスト
- On the Discriminability of Self-Supervised Representation Learning [38.598160031349686]
自己教師付き学習(SSL)は、最近、下流の視覚タスクで大きな成功を収めた。
特に複雑な下流タスクにおいて、SSLと教師あり学習(SL)の間には、注目すべきギャップがまだ残っている。
論文 参考訳(メタデータ) (2024-07-18T14:18:03Z) - Erasing the Bias: Fine-Tuning Foundation Models for Semi-Supervised Learning [4.137391543972184]
半教師付き学習(SSL)は目覚ましい進歩をみせており、多くの方法のバリエーションをもたらしている。
本稿では,FinSSLという新しいSSLアプローチを提案する。
我々は、FineSSLが複数のベンチマークデータセットにSSLの新たな状態を設定し、トレーニングコストを6倍以上削減し、さまざまな微調整と現代的なSSLアルゴリズムをシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-05-20T03:33:12Z) - Every Node is Different: Dynamically Fusing Self-Supervised Tasks for
Attributed Graph Clustering [59.45743537594695]
グラフクラスタリングのための動的Fusing Self-Supervised Learning (DyFSS)を提案する。
DyFSSは、ゲーティングネットワークから派生した異なる重みを使って、多様なSSLタスクから抽出された特徴を融合する。
実験では、DyFSSは最先端のマルチタスクSSLメソッドよりも精度が最大8.66%向上している。
論文 参考訳(メタデータ) (2024-01-12T14:24:10Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Semi-supervised Learning with Deterministic Labeling and Large Margin
Projection [25.398314796157933]
ラベル付きデータの集中度と多様性は、半教師付き学習(SSL)の性能に非常に影響を与える
本研究は,OCF構造に基づいて認識される最小の安定かつ最も分散したデータに対して,カーネル化された大規模マージン計量を学習することを目的とする。
OLFに基づくSSLモデルの精度と性能の安定性は, ベースライン法に比べて大幅に向上した。
論文 参考訳(メタデータ) (2022-08-17T04:09:35Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning [54.617688468341704]
少ないショット学習は、限られたトレーニングサンプルを持つ新しいクラスに一般化するモデルを学ぶことを目的としている。
本研究では,(1)信頼できない擬似ラベルによる基本クラスと新クラスのあいまいさを緩和する高度に設計されたメタトレーニングアルゴリズム,(2)ラベルの少ないデータとラベルなしデータを用いて基礎知識を保ちながら,新クラスの識別的特徴を学習するモデル適応機構を提案する。
論文 参考訳(メタデータ) (2021-10-21T13:25:52Z) - Self-Supervised Learning of Graph Neural Networks: A Unified Review [50.71341657322391]
ラベルなしサンプルを多用する新たなパラダイムとして,自己教師型学習が登場している。
SSLを用いたグラフニューラルネットワーク(GNNs)のトレーニング方法の統一レビューを提供します。
gnnに対するssl手法の処理は,様々な手法の類似性と相違に光を当て,新しい手法やアルゴリズムの開発段階を定めている。
論文 参考訳(メタデータ) (2021-02-22T03:43:45Z) - Boosting Few-Shot Learning With Adaptive Margin Loss [109.03665126222619]
本稿では,数ショット学習問題に対するメートル法に基づくメタラーニング手法の一般化能力を改善するための適応的マージン原理を提案する。
大規模な実験により,提案手法は,現在のメートル法に基づくメタラーニング手法の性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2020-05-28T07:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。