論文の概要: On the effect of curriculum learning with developmental data for grammar
acquisition
- arxiv url: http://arxiv.org/abs/2311.00128v2
- Date: Fri, 3 Nov 2023 16:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:25:52.318158
- Title: On the effect of curriculum learning with developmental data for grammar
acquisition
- Title(参考訳): 文法習得のための発達データを用いたカリキュラム学習の効果について
- Authors: Mattia Opper, J. Morrison, N. Siddharth
- Abstract要約: この研究は、文法習得が言語の単純さによって引き起こされる程度と、データのソースモダリティ(音声対テキスト)について考察する。
特にBabyLMトレーニングコーパス(AO-Childes)とOpen Subtitles(Open Subtitles)の2つを対象とする。
- 参考スコア(独自算出の注目度): 4.4044968357361745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the degree to which grammar acquisition is driven by
language `simplicity' and the source modality (speech vs. text) of data. Using
BabyBERTa as a probe, we find that grammar acquisition is largely driven by
exposure to speech data, and in particular through exposure to two of the
BabyLM training corpora: AO-Childes and Open Subtitles. We arrive at this
finding by examining various ways of presenting input data to our model. First,
we assess the impact of various sequence-level complexity based curricula. We
then examine the impact of learning over `blocks' -- covering spans of text
that are balanced for the number of tokens in each of the source corpora
(rather than number of lines). Finally, we explore curricula that vary the
degree to which the model is exposed to different corpora. In all cases, we
find that over-exposure to AO-Childes and Open Subtitles significantly drives
performance. We verify these findings through a comparable control dataset in
which exposure to these corpora, and speech more generally, is limited by
design. Our findings indicate that it is not the proportion of tokens occupied
by high-utility data that aids acquisition, but rather the proportion of
training steps assigned to such data. We hope this encourages future research
into the use of more developmentally plausible linguistic data (which tends to
be more scarce) to augment general purpose pre-training regimes.
- Abstract(参考訳): 本研究は、文法習得が「単純化」言語とデータのソースモダリティ(音声対テキスト)によって駆動される程度を考察する。
BabyBERTaをプローブとして用いると、文法習得は主に音声データへの露出、特にBabyLMトレーニングコーパスであるAO-ChildesとOpen Subtitlesの2つの露出によるものであることが分かる。
モデルに入力データを提示するさまざまな方法を調べることで、この発見にたどり着きます。
まず、様々なシーケンスレベルの複雑性に基づくカリキュラムの影響を評価する。
次に、各ソースコーパス(行数ではなく)のトークン数に対してバランスのとれたテキストのスパンをカバーする、‘ブロック’に対する学習の影響を調べます。
最後に、モデルが異なるコーパスに曝される程度が異なる曲線を探索する。
いずれにしても、AO-ChildesやOpen Subtitlesへの過剰な露出はパフォーマンスを著しく向上させる。
コーパスに曝露し、より一般的には、設計によって制限されるような、比較可能な制御データセットを用いてこれらの結果を検証する。
本研究は,高ユーティリティデータに占めるトークンの割合ではなく,そのようなデータに割り当てられたトレーニングステップの割合であることを示す。
これは、より発達的に妥当な言語データ(より少ない傾向にある)を使用して、汎用的な事前訓練体制を強化するための将来の研究を促進することを願っている。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Reconsidering Sentence-Level Sign Language Translation [2.099922236065961]
サンプル中の33%の文に対して,流用なDeafシグナ・アノテータは談話レベルの文脈から,クリップのキー部分のみを理解できた。
これらの結果は、機械学習を新しいドメインに適用する際の理解と健全性検査の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-06-16T19:19:54Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Subsentence Extraction from Text Using Coverage-Based Deep Learning
Language Models [3.3461339691835277]
カバレッジに基づく感情・サブセンテンス抽出システムを提案する。
予測サブセンテンスは、感情を表す補助情報からなる。
我々のアプローチは、最先端のアプローチよりも、subsentence予測の大きなマージンで勝っている。
論文 参考訳(メタデータ) (2021-04-20T06:24:49Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。