論文の概要: FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners
- arxiv url: http://arxiv.org/abs/2210.13432v1
- Date: Mon, 24 Oct 2022 17:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:03:48.835210
- Title: FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners
- Title(参考訳): FCM: 因果的マスキングがゼロショット学習者を改善する
- Authors: Hao Liu, Xinyang Geng, Lisa Lee, Igor Mordatch, Sergey Levine, Sharan
Narang, Pieter Abbeel
- Abstract要約: 本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
- 参考スコア(独自算出の注目度): 139.6321017962092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) trained using the next-token-prediction
objective, such as GPT3 and PaLM, have revolutionized natural language
processing in recent years by showing impressive zero-shot and few-shot
capabilities across a wide range of tasks. In this work, we propose a simple
technique that significantly boosts the performance of LLMs without adding
computational cost. Our key observation is that, by performing the next token
prediction task with randomly selected past tokens masked out, we can improve
the quality of the learned representations for downstream language
understanding tasks. We hypothesize that randomly masking past tokens prevents
over-attending to recent tokens and encourages attention to tokens in the
distant past. By randomly masking input tokens in the PaLM model, we show that
we can significantly improve 1B and 8B PaLM's zero-shot performance on the
SuperGLUE benchmark from 55.7 to 59.2 and from 61.6 to 64.0, respectively. Our
largest 8B model matches the score of PaLM with an average score of 64, despite
the fact that PaLM is trained on a much larger dataset (780B tokens) of
high-quality conversation and webpage data, while ours is trained on the
smaller C4 dataset (180B tokens). Experimental results show that our method
also improves PaLM's zero and few-shot performance on a diverse suite of tasks,
including commonsense reasoning, natural language inference and cloze
completion. Moreover, we show that our technique also helps representation
learning, significantly improving PaLM's finetuning results.
- Abstract(参考訳): 大規模言語モデル(LLM)は、GPT3やPaLMのような次世代の予測目標を用いて訓練され、近年、広範囲のタスクで目覚ましいゼロショットと少数ショット機能を示すことで、自然言語処理に革命をもたらした。
本研究では,計算コストを伴わずにLLMの性能を大幅に向上させる簡単な手法を提案する。
我々は,ランダムに選択した過去のトークンをマスクアウトした次のトークン予測タスクを行うことで,下流言語理解タスクの学習表現の品質を向上させることができることを重要視する。
過去のトークンをランダムにマスキングすることは、最近のトークンへの過度な攻撃を防ぎ、遠い過去のトークンに対する注意を促すと仮定する。
入力トークンを PaLM モデルでランダムにマスキングすることにより,SuperGLUE ベンチマークでは 1B と 8B PaLM のゼロショット性能を 55.7 から 59.2 に,それぞれ 61.6 から 64.0 に向上させることができることを示す。
私たちの最大8Bモデルは、PaLMが高品質な会話とWebページデータのデータセット(780Bトークン)でトレーニングされているのに対して、私たちのモデルはより小さなC4データセット(180Bトークン)でトレーニングされているにもかかわらず、平均64のスコアでPaLMのスコアと一致します。
実験結果から,本手法は,共通理解推論,自然言語推論,クローゼ補完など,多種多様なタスクに対して,PaLMのゼロおよび少数ショット性能を向上することが示された。
さらに,本手法は表現学習にも役立ち,PaLMの微調整結果を大幅に改善することを示す。
関連論文リスト
- Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文 参考訳(メタデータ) (2024-05-29T17:39:42Z) - Understanding the Role of Input Token Characters in Language Models: How
Does Information Loss Affect Performance? [45.53600782873268]
入力トークン文字における情報損失が事前学習言語モデルの性能に与える影響について検討する。
驚くべきことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、および探索タスクが高いことが判明した。
例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90ドル%と7,7ドル%のパフォーマンス保持が達成される。
論文 参考訳(メタデータ) (2023-10-26T09:47:50Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。