Fugu-MT 論文翻訳(概要): When Do You Need Billions of Words of Pretraining Data?

論文の概要: When Do You Need Billions of Words of Pretraining Data?

arxiv url: http://arxiv.org/abs/2011.04946v1
Date: Tue, 10 Nov 2020 07:16:18 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 07:23:54.221069
Title: When Do You Need Billions of Words of Pretraining Data?
Title（参考訳）: データの事前学習には何十億もの言葉が必要か?
Authors: Yian Zhang, Alex Warstadt, Haau-Sing Li, and Samuel R. Bowman
Abstract要約: トランスフォーマーLMは大規模な事前学習から学習し、少ないデータから学べない。多くの構文的・意味的特徴を確実に符号化する表現を学習するには,約10万語から1億語程度しか必要としないことがわかった。
参考スコア（独自算出の注目度）: 23.80748200206869
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: NLP is currently dominated by general-purpose pretrained language models like RoBERTa, which achieve strong performance on NLU tasks through pretraining on billions of words. But what exact knowledge or skills do Transformer LMs learn from large-scale pretraining that they cannot learn from less data? We adopt four probing methods---classifier probing, information-theoretic probing, unsupervised relative acceptability judgment, and fine-tuning on NLU tasks---and draw learning curves that track the growth of these different measures of linguistic ability with respect to pretraining data volume using the MiniBERTas, a group of RoBERTa models pretrained on 1M, 10M, 100M and 1B words. We find that LMs require only about 10M or 100M words to learn representations that reliably encode most syntactic and semantic features we test. A much larger quantity of data is needed in order to acquire enough commonsense knowledge and other skills required to master typical downstream NLU tasks. The results suggest that, while the ability to encode linguistic features is almost certainly necessary for language understanding, it is likely that other forms of knowledge are the major drivers of recent improvements in language understanding among large pretrained models.
Abstract（参考訳）: 現在、NLPはRoBERTaのような汎用事前学習言語モデルによって支配されており、数十億の単語を事前学習することで、NLUタスクの強力なパフォーマンスを実現している。しかし、Transformer LMは、より少ないデータから学べない大規模な事前学習から、正確な知識やスキルを学ぶことができるだろうか? 分類法,情報理論的探索,教師なし相対受容性判定,NLUタスクの微調整の4つの手法を採用し,MiniBERTas,1M,10M,100M,1Bワードで事前学習したRoBERTaモデルを用いて,これらの言語能力の様々な尺度の成長を追跡する学習曲線を描画する。 lmsは、テストする構文的および意味的特徴のほとんどを確実にエンコードする表現を学ぶために、約10mまたは1mの単語しか必要としないことがわかった。一般的なnluタスクを習得するために必要なコモンセンス知識やその他のスキルを取得するには、より多くのデータが必要である。その結果、言語的特徴をエンコードする能力は言語理解にほぼ確実に必要であるが、他の形態の知識が、大規模事前学習モデルにおける最近の言語理解の改善の主要な要因である可能性が示唆された。

関連論文リスト

Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。大規模な言語モデルはデータ効率がはるかに低く、通常は3～4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。 BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文参考訳（メタデータ） (2025-04-10T23:22:43Z)
Towards Data-Efficient Language Models: A Child-Inspired Approach to Language Learning [2.565964707090901]
我々は,従来の大規模言語モデル (LLM) と比較して,データ量が大幅に少ない様々な言語モデル(LM)を訓練する手法を用いている。そこで本研究では,主に児童向け文字起こしから得られた1000万語からなるキュレートデータセットに基づいて学習したモデルを構築した。我々は語彙を32,000のトークンに減らし、言語習得の初期段階の子供たちの限られた語彙と整合させる。
論文参考訳（メタデータ） (2025-03-06T16:57:26Z)
TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文参考訳（メタデータ） (2024-12-31T16:08:15Z)
Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-12-13T16:13:35Z)
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文参考訳（メタデータ） (2024-12-06T16:06:08Z)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳（メタデータ） (2024-07-20T21:24:40Z)
EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文参考訳（メタデータ） (2023-05-24T01:40:57Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文参考訳（メタデータ） (2022-11-11T04:29:02Z)
AfroLM: A Self-Active Learning-based Multilingual Pretrained Language Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。 AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。様々な領域にまたがってうまく一般化することができる。
論文参考訳（メタデータ） (2022-11-07T02:15:25Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Collaboration of Pre-trained Models Makes Better Few-shot Learner [49.89134194181042]
少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
論文参考訳（メタデータ） (2022-09-25T16:23:12Z)
Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文参考訳（メタデータ） (2021-11-22T02:56:04Z)
From Universal Language Model to Downstream Task: Improving RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文参考訳（メタデータ） (2021-02-24T09:30:55Z)
Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文参考訳（メタデータ） (2020-11-02T10:57:53Z)
Learning Which Features Matter: RoBERTa Acquires a Preference for Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。 MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文参考訳（メタデータ） (2020-10-11T22:09:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。