論文の概要: Position Masking for Language Models
- arxiv url: http://arxiv.org/abs/2006.05676v1
- Date: Tue, 2 Jun 2020 23:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:08:53.682814
- Title: Position Masking for Language Models
- Title(参考訳): 言語モデルのための位置マスキング
- Authors: Andy Wagner, Tiyasa Mitra, Mrinal Iyer, Godfrey Da Costa, Marc
Tremblay
- Abstract要約: Masked Language Modeling (MLM) は、BERT などの事前学習モデルで、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
マスクされた入力トークンIDとともに、いくつかのトークンの位置をマスキングすることで、このアイデアを拡大することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling (MLM) pre-training models such as BERT corrupt the
input by replacing some tokens with [MASK] and then train a model to
reconstruct the original tokens. This is an effective technique which has led
to good results on all NLP benchmarks. We propose to expand upon this idea by
masking the positions of some tokens along with the masked input token ids. We
follow the same standard approach as BERT masking a percentage of the tokens
positions and then predicting their original values using an additional fully
connected classifier stage. This approach has shown good performance gains
(.3\% improvement) for the SQUAD additional improvement in convergence times.
For the Graphcore IPU the convergence of BERT Base with position masking
requires only 50\% of the tokens from the original BERT paper.
- Abstract(参考訳): Masked Language Modeling (MLM) は、BERT などの事前学習モデルで、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
これは、すべてのNLPベンチマークで良い結果をもたらす効果的な手法である。
我々は,いくつかのトークンの位置とマスキングされた入力トークンidをマスクすることにより,この概念を拡張することを提案する。
我々は、BERTがトークンの位置のパーセンテージを隠蔽し、さらに完全に連結された分類器ステージを使用して元の値を予測するのと同じ標準手法に従う。
このアプローチは、分隊が収束時間をさらに改善するための優れた性能向上(.3\%改善)を示している。
Graphcore IPUでは、位置マスキングによるBERT Baseの収束は、元のBERTペーパーのトークンの50%しか必要としない。
関連論文リスト
- SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Emerging Property of Masked Token for Effective Pre-training [15.846621577804791]
Masked Image Modeling (MIM)はコンピュータビジョンにおける最近のブレークスルーの推進に役立っている。
MIMの全体的な効率は、トレーニング前のフェーズの長い持続時間によって妨げられることがある。
本稿では,マスクトークンの重み付けとキー特性の強化によるモデル効率の向上を目的として,マスクトークン最適化(MTO)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-12T08:46:53Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Learning with Unmasked Tokens Drives Stronger Vision Learners [39.752789949834536]
マスク付き画像モデリング(MIM)は,自己指導型学習戦略の先駆けとなる。
トレーニングプロセスに不正トークンを明示的に組み込むことでMIMを改善する。
ImageNet-1Kでは、VT-Bで84.2%の精度を実現し、0.6%のゲインを得た。
論文 参考訳(メタデータ) (2023-10-20T15:42:47Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。