論文の概要: TLM: Token-Level Masking for Transformers
- arxiv url: http://arxiv.org/abs/2310.18738v1
- Date: Sat, 28 Oct 2023 15:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:40:39.662656
- Title: TLM: Token-Level Masking for Transformers
- Title(参考訳): TLM:トランスフォーマーのためのToken-Level Masking
- Authors: Yangjun Wu, Kebin Fang, Dongxiang Zhang, Han Wang, Hao Zhang, Gang
Chen
- Abstract要約: オーバーフィッティングを減らすために,トークンレベルに基づく新たな正規化手法を提案する。
具体的には,トランスフォーマーが自己注意のつながりを規則化するための新しいTLMトレーニング戦略を考案する。
- 参考スコア(独自算出の注目度): 17.739590600228393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured dropout approaches, such as attention dropout and DropHead, have
been investigated to regularize the multi-head attention mechanism in
Transformers. In this paper, we propose a new regularization scheme based on
token-level rather than structure-level to reduce overfitting. Specifically, we
devise a novel Token-Level Masking (TLM) training strategy for Transformers to
regularize the connections of self-attention, which consists of two masking
techniques that are effective and easy to implement. The underlying idea is to
manipulate the connections between tokens in the multi-head attention via
masking, where the networks are forced to exploit partial neighbors'
information to produce a meaningful representation. The generality and
effectiveness of TLM are thoroughly evaluated via extensive experiments on 4
diversified NLP tasks across 18 datasets, including natural language
understanding benchmark GLUE, ChineseGLUE, Chinese Grammatical Error
Correction, and data-to-text generation. The results indicate that TLM can
consistently outperform attention dropout and DropHead, e.g., it increases by
0.5 points relative to DropHead with BERT-large on GLUE. Moreover, TLM can
establish a new record on the data-to-text benchmark Rotowire (18.93 BLEU). Our
code will be publicly available at https://github.com/Young1993/tlm.
- Abstract(参考訳): トランスフォーマーのマルチヘッドアテンション機構を標準化するために,アテンションドロップアウトやDropHeadなどの構造化ドロップアウト手法が検討されている。
本稿では,オーバーフィッティングを減らすために,構造レベルではなくトークンレベルに基づく新しい正規化スキームを提案する。
具体的には,トランスフォーマーに対して,効果的で実装が容易な2つのマスキング技術からなる自己注意の接続を規則化する,新たなTLMトレーニング戦略を考案する。
根底にある考え方は、マスキングによってマルチヘッドアテンションにおけるトークン間の接続を操作することであり、そこでネットワークは、部分的な隣人の情報を利用して意味のある表現を作り出すことを余儀なくされる。
TLMの汎用性と有効性は、自然言語理解ベンチマークGLUE, ChineseGLUE, Chinese Grammatical Error Correction, data-to-text generationを含む18のデータセットにまたがる4つの分散NLPタスクに関する広範な実験を通じて、徹底的に評価される。
以上の結果から,TLM は GLUE 上での BERT-large のDropHead と比較して 0.5 ポイント増加し,常に注目ドロップアウトを上回り得ることが示された。
さらに、TLMはデータからテキストへのベンチマークであるRotowire (18.93 BLEU)に新しい記録を樹立することができる。
私たちのコードはhttps://github.com/young1993/tlmで公開されます。
関連論文リスト
- FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - Structural Self-Supervised Objectives for Transformers [3.018656336329545]
この論文は、教師なし生データを用いて自然言語モデルの事前学習を改善することに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に対する3つの事前学習目標について紹介する。
第2部では、下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:30:45Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - Mask-guided BERT for Few Shot Text Classification [12.361032727044547]
Mask-BERTは、BERTベースのアーキテクチャが数発の学習に対処するための、シンプルでモジュール化されたフレームワークである。
中心となる考え方は、テキスト入力にマスクを選択的に適用し、無関係な情報をフィルタリングすることであり、それはモデルを差別的トークンにフォーカスするよう誘導する。
パブリックドメインベンチマークデータセットの実験結果は、Mask-BERTの有効性を示す。
論文 参考訳(メタデータ) (2023-02-21T05:24:00Z) - Transcormer: Transformer for Sentence Scoring with Sliding Language
Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。
文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文 参考訳(メタデータ) (2022-05-25T18:00:09Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - TransCrowd: Weakly-Supervised Crowd Counting with Transformer [56.84516562735186]
今回提案するTransCrowdは、Transformerに基づくシーケンス・ツー・カウントの観点から、監視の弱い群衆カウント問題を再構成する。
5つのベンチマークデータセットの実験は、提案されたTransCrowdが、弱い監視されたCNNベースのカウント方法すべてと比較して優れたパフォーマンスを達成することを示しています。
論文 参考訳(メタデータ) (2021-04-19T08:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。