論文の概要: Entropy-aware Masking for Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2605.28526v1
- Date: Wed, 27 May 2026 14:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.109316
- Title: Entropy-aware Masking for Masked Language Modeling
- Title(参考訳): マスク言語モデリングのためのエントロピー対応マスキング
- Authors: Gokul Srinivasagan, Kai Hartung, Munir Georges,
- Abstract要約: マスケッド言語モデリングは,エンコーダに基づく言語モデルのトレーニングにおいて,標準的な事前学習対象となっている。
本研究では,エントロピー分布に基づくトークンマスキング戦略について検討する。
本稿では,外部参照モデルに頼らずにトレーニング効率を向上させる,新たなセルフマスキング手法を提案する。
- 参考スコア(独自算出の注目度): 4.2566707664597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling has become a standard pretraining objective for training encoder-based language models. In this approach, certain tokens in the input are masked, and the model learns to predict them using the surrounding context. This process enables the model to capture both syntactic and semantic properties of language. Conventionally, the tokens selected for masking are chosen at random, which may not always yield the most effective learning signals. In this work, we examine a token masking strategy based on entropy distribution. We use the model's entropy over token predictions to identify which tokens should be masked. This method aims to target tokens that are more informative and uncertain to improve the training efficacy. We also propose a novel self-masking approach that enhances training efficiency without relying on an external reference model. Experimental results demonstrate that our method achieves an average performance improvement of 5% in GLUE scores compared to the baseline. Further, we experiment with combining knowledge distillation with entropy masking, resulting in the best overall results.
- Abstract(参考訳): マスケッド言語モデリングは,エンコーダに基づく言語モデルのトレーニングにおいて,標準的な事前学習対象となっている。
このアプローチでは、入力中の特定のトークンは隠蔽され、モデルが周囲のコンテキストを使ってそれらを予測することを学ぶ。
このプロセスにより、モデルは言語の構文的特性と意味的特性の両方をキャプチャできる。
従来、マスキングのために選択されたトークンはランダムに選択され、必ずしも最も効果的な学習信号が得られるとは限らない。
本研究では,エントロピー分布に基づくトークンマスキング戦略について検討する。
トークン予測に対するモデルのエントロピーを使用して、どのトークンをマスクすべきかを特定します。
本手法は,訓練効果を向上させるために,より情報的かつ不確実なトークンを標的にすることを目的とする。
また、外部参照モデルに頼ることなく、トレーニング効率を向上させる新しいセルフマスキング手法を提案する。
実験結果から,本手法はベースラインと比較して,GLUEスコアの平均性能を5%向上することが示された。
さらに, 知識蒸留とエントロピーマスキングを組み合わせた実験を行い, 総合的な結果を得た。
関連論文リスト
- Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text [27.320746607958142]
本稿では,新しいタスク情報を用いた反カリキュラム学習手法に基づいて,マスキング率を調整し,マスクするトークンを決定することを提案する。
我々は,3つの下流タスクにまたがるマスキング手法により,新しいタスクインフォームドアンチカリキュラムを実証する。
論文 参考訳(メタデータ) (2025-02-18T15:36:16Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - Self-Evolution Learning for Discriminative Language Model Pretraining [103.57103957631067]
自己進化学習(Self-Evolution Learning、SE)は、単純で効果的なトークンマスキングと学習方法である。
SEは情報的だが未探索のトークンを学習することに集中し、新しいToken固有のラベル平滑化アプローチを導入してトレーニングを適応的に調整する。
論文 参考訳(メタデータ) (2023-05-24T16:00:54Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。