論文の概要: On Masked Pre-training and the Marginal Likelihood
- arxiv url: http://arxiv.org/abs/2306.00520v1
- Date: Thu, 1 Jun 2023 10:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:02:41.596017
- Title: On Masked Pre-training and the Marginal Likelihood
- Title(参考訳): 仮面前訓練と限界可能性について
- Authors: Pablo Moreno-Mu\~noz, Pol G. Recasens and S{\o}ren Hauberg
- Abstract要約: Maskedプレトレーニングはランダムな入力次元を取り除き、不足した値を予測できるモデルを学ぶ。
本稿では,最適累積スコアリング関数を用いたマスク付き事前学習が,モデルの限界確率の最大化に対応していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked pre-training removes random input dimensions and learns a model that
can predict the missing values. Empirical results indicate that this intuitive
form of self-supervised learning yields models that generalize very well to new
domains. A theoretical understanding is, however, lacking. This paper shows
that masked pre-training with a suitable cumulative scoring function
corresponds to maximizing the model's marginal likelihood, which is de facto
the Bayesian model selection measure of generalization. Beyond shedding light
on the success of masked pre-training, this insight also suggests that Bayesian
models can be trained with appropriately designed self-supervision.
Empirically, we confirm the developed theory and explore the main learning
principles of masked pre-training in large language models.
- Abstract(参考訳): masked pre-trainingはランダムな入力次元を取り除き、欠落した値を予測できるモデルを学ぶ。
実証的な結果は、この直感的な自己教師付き学習形式は、新しいドメインに非常によく一般化するモデルをもたらすことを示している。
しかし、理論的な理解は欠如している。
本稿では,適切な累積スコアリング関数を持つマスキング事前学習は,ベイズモデルの一般化選択尺度のデファクトであるモデルの限界確率を最大化することに対応していることを示す。
この洞察は、仮面トレーニングの成功に光を当てるだけでなく、ベイズモデルが適切な設計の自己スーパービジョンで訓練できることも示唆している。
経験的に開発した理論を確認し,大規模言語モデルにおけるマスキング事前学習の主な学習原理を探究する。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - The Distributional Hypothesis Does Not Fully Explain the Benefits of
Masked Language Model Pretraining [27.144616560712493]
マスク付き言語モデルを用いて事前学習したモデルのより優れたサンプル効率とより優れた一般化能力は、事前学習したデータの分布特性に符号化された意味的類似性に起因するかを検討する。
本研究は,モデル事前学習の限定的な理解と今後の研究方向性を示すものである。
論文 参考訳(メタデータ) (2023-10-25T00:31:29Z) - A Mathematical Framework for Learning Probability Distributions [0.0]
生成的モデリングと密度推定は 近年 非常にポピュラーな話題になっています
本論文は、すべての有名なモデルを単純な原理に基づいて導出できる数学的枠組みを提供する。
特に,これらのモデルが訓練中に暗黙的な正規化を楽しむことを証明し,早期停止時の一般化誤差が次元性の呪いを避ける。
論文 参考訳(メタデータ) (2022-12-22T04:41:45Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Demystifying Code Summarization Models [5.608277537412537]
我々は、極端要約、code2vec、code2seq、Sequence GNNの4つの顕著なコード要約モデルを評価する。
結果は、すべてのモデルが意味的な意味をほとんど含まない構文的および語彙的特性に基づいて予測することを示している。
本稿では,トレーニングデータのレンズを用いて,コード要約モデルの予測を説明する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T03:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。