論文の概要: On the effect of curriculum learning with developmental data for grammar
acquisition
- arxiv url: http://arxiv.org/abs/2311.00128v2
- Date: Fri, 3 Nov 2023 16:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:25:52.318158
- Title: On the effect of curriculum learning with developmental data for grammar
acquisition
- Title(参考訳): 文法習得のための発達データを用いたカリキュラム学習の効果について
- Authors: Mattia Opper, J. Morrison, N. Siddharth
- Abstract要約: この研究は、文法習得が言語の単純さによって引き起こされる程度と、データのソースモダリティ(音声対テキスト)について考察する。
特にBabyLMトレーニングコーパス(AO-Childes)とOpen Subtitles(Open Subtitles)の2つを対象とする。
- 参考スコア(独自算出の注目度): 4.4044968357361745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the degree to which grammar acquisition is driven by
language `simplicity' and the source modality (speech vs. text) of data. Using
BabyBERTa as a probe, we find that grammar acquisition is largely driven by
exposure to speech data, and in particular through exposure to two of the
BabyLM training corpora: AO-Childes and Open Subtitles. We arrive at this
finding by examining various ways of presenting input data to our model. First,
we assess the impact of various sequence-level complexity based curricula. We
then examine the impact of learning over `blocks' -- covering spans of text
that are balanced for the number of tokens in each of the source corpora
(rather than number of lines). Finally, we explore curricula that vary the
degree to which the model is exposed to different corpora. In all cases, we
find that over-exposure to AO-Childes and Open Subtitles significantly drives
performance. We verify these findings through a comparable control dataset in
which exposure to these corpora, and speech more generally, is limited by
design. Our findings indicate that it is not the proportion of tokens occupied
by high-utility data that aids acquisition, but rather the proportion of
training steps assigned to such data. We hope this encourages future research
into the use of more developmentally plausible linguistic data (which tends to
be more scarce) to augment general purpose pre-training regimes.
- Abstract(参考訳): 本研究は、文法習得が「単純化」言語とデータのソースモダリティ(音声対テキスト)によって駆動される程度を考察する。
BabyBERTaをプローブとして用いると、文法習得は主に音声データへの露出、特にBabyLMトレーニングコーパスであるAO-ChildesとOpen Subtitlesの2つの露出によるものであることが分かる。
モデルに入力データを提示するさまざまな方法を調べることで、この発見にたどり着きます。
まず、様々なシーケンスレベルの複雑性に基づくカリキュラムの影響を評価する。
次に、各ソースコーパス(行数ではなく)のトークン数に対してバランスのとれたテキストのスパンをカバーする、‘ブロック’に対する学習の影響を調べます。
最後に、モデルが異なるコーパスに曝される程度が異なる曲線を探索する。
いずれにしても、AO-ChildesやOpen Subtitlesへの過剰な露出はパフォーマンスを著しく向上させる。
コーパスに曝露し、より一般的には、設計によって制限されるような、比較可能な制御データセットを用いてこれらの結果を検証する。
本研究は,高ユーティリティデータに占めるトークンの割合ではなく,そのようなデータに割り当てられたトレーニングステップの割合であることを示す。
これは、より発達的に妥当な言語データ(より少ない傾向にある)を使用して、汎用的な事前訓練体制を強化するための将来の研究を促進することを願っている。
関連論文リスト
- Acquiring Linguistic Knowledge from Multimodal Input [10.965306219502303]
子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
論文 参考訳(メタデータ) (2024-02-27T23:29:10Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Studying the impacts of pre-training using ChatGPT-generated text on
downstream tasks [0.0]
本研究の目的は,言語モデルの事前学習における人工テキストの影響を検討することである。
我々は、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、同じ記事をトレーニングに用いたChatGPTの比較分析を行った。
事前学習における人工テキストの利用は、下流作業におけるモデルの性能や性別の偏りに有意な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-09-02T12:56:15Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on
a developmentally plausible corpus [32.51325830633226]
BabyLM Challenge: 発達可能なコーパス上でのサンプル効率事前学習のための論文の募集を行う。
この共有タスクは、小規模言語モデリング、ヒューマン言語獲得、低リソースNLP、認知モデリングに関心を持つ参加者を対象としている。
論文 参考訳(メタデータ) (2023-01-27T15:52:50Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - Subsentence Extraction from Text Using Coverage-Based Deep Learning
Language Models [3.3461339691835277]
カバレッジに基づく感情・サブセンテンス抽出システムを提案する。
予測サブセンテンスは、感情を表す補助情報からなる。
我々のアプローチは、最先端のアプローチよりも、subsentence予測の大きなマージンで勝っている。
論文 参考訳(メタデータ) (2021-04-20T06:24:49Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。