論文の概要: Nonparametric Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2212.01349v2
- Date: Thu, 25 May 2023 23:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:09:10.165702
- Title: Nonparametric Masked Language Modeling
- Title(参考訳): 非パラメトリックマスキング言語モデリング
- Authors: Sewon Min, Weijia Shi, Mike Lewis, Xilun Chen, Wen-tau Yih, Hannaneh
Hajishirzi, Luke Zettlemoyer
- Abstract要約: 既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
- 参考スコア(独自算出の注目度): 113.71921977520864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing language models (LMs) predict tokens with a softmax over a finite
vocabulary, which can make it difficult to predict rare tokens or phrases. We
introduce NPM, the first nonparametric masked language model that replaces this
softmax with a nonparametric distribution over every phrase in a reference
corpus. NPM fills in the [MASK] solely from retrieving a token from a text
corpus. We show that NPM can be efficiently trained with a contrastive
objective and an in-batch approximation to full corpus retrieval. Zero-shot
evaluation on 16 tasks including classification, fact probing and question
answering demonstrates that NPM outperforms significantly larger parametric
models, either with or without a retrieve-and-generate approach. It is
particularly better at dealing with rare patterns (word senses or facts) and
predicting rare or nearly unseen words (e.g., non-Latin script). We release the
model and code at github.com/facebookresearch/NPM.
- Abstract(参考訳): 既存の言語モデル(lms)は有限の語彙よりもソフトマックスでトークンを予測するため、希少なトークンやフレーズの予測が困難になる。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは[MASK]をテキストコーパスからトークンを取得するだけで埋めます。
そこで本研究では,npmをコントラスト目標と全コーパス検索に対するバッチ内近似を用いて効率的に訓練できることを示す。
分類、事実探索、質問応答を含む16のタスクにおけるゼロショット評価は、NPMが検索と生成のアプローチの有無にかかわらず、かなり大きなパラメトリックモデルより優れていることを示す。
特に、希少なパターン(単語の感覚や事実)の扱いや、希少な、あるいはほとんど見えない単語(例えば、非ラテン文字)の予測が優れている。
モデルとコードはgithub.com/facebookresearch/NPMで公開しています。
関連論文リスト
- Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Contextual Distortion Reveals Constituency: Masked Language Models are
Implicit Parsers [7.558415495951758]
マスク付き言語モデル(LM)から解析木を抽出する新しい手法を提案する。
本手法は,言語摂動による文脈表現の歪みに基づいて,各スパンのスコアを算出する。
本手法は,マスク付きLMを用いた英語における従来の最先端手法を一貫して上回り,多言語環境での優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T13:10:48Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Fixed-MAML for Few Shot Classification in Multilingual Speech Emotion
Recognition [0.0]
音声音声認識タスク(SER)に少数発話学習を適用することの可能性を解析する。
本稿では,モデル非依存メタラーニング(MAML)アルゴリズムを改良し,この問題を解き,新しいモデルF-MAMLと呼ぶ。
この変更は元の MAML よりも優れており、EmoFilm データセットよりも優れています。
論文 参考訳(メタデータ) (2021-01-05T05:51:50Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - ELECTRA: Pre-training Text Encoders as Discriminators Rather Than
Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
代用トークン検出という,より効率的な事前学習タスクを提案する。
論文 参考訳(メタデータ) (2020-03-23T21:17:42Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。