論文の概要: How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases
- arxiv url: http://arxiv.org/abs/2305.19905v1
- Date: Wed, 31 May 2023 14:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 16:03:02.232737
- Title: How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases
- Title(参考訳): 言語モデルに木を植える方法:構文的帰納的バイアスの発生に対するデータと構造的影響
- Authors: Aaron Mueller, Tal Linzen
- Abstract要約: 事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
- 参考スコア(独自算出の注目度): 28.58785395946639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate syntactic representations are essential for robust generalization in
natural language. Recent work has found that pre-training can teach language
models to rely on hierarchical syntactic features - as opposed to incorrect
linear features - when performing tasks after fine-tuning. We test what aspects
of pre-training are important for endowing encoder-decoder Transformers with an
inductive bias that favors hierarchical syntactic generalizations. We focus on
architectural features (depth, width, and number of parameters), as well as the
genre and size of the pre-training corpus, diagnosing inductive biases using
two syntactic transformation tasks: question formation and passivization, both
in English. We find that the number of parameters alone does not explain
hierarchical generalization: model depth plays greater role than model width.
We also find that pre-training on simpler language, such as child-directed
speech, induces a hierarchical bias using an order-of-magnitude less data than
pre-training on more typical datasets based on web text or Wikipedia; this
suggests that in cognitively plausible language acquisition settings, neural
language models may be more data-efficient than previously thought.
- Abstract(参考訳): 正確な構文表現は、自然言語の堅牢な一般化に不可欠である。
最近の研究によると、事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴(誤った線形特徴ではなく)に依存するように言語モデルを教えることができる。
我々は,エンコーダ・デコーダ変換器に階層的構文一般化を好む帰納バイアスを付与する上で,事前学習のどの側面が重要であるかを検証する。
我々は,アーキテクチャ的特徴(深さ,幅,パラメータ数)と事前学習コーパスのジャンルとサイズに注目し,2つの構文変換タスク(質問生成と受動的化)を用いて帰納的バイアスを診断する。
パラメータの数だけでは階層的一般化を説明できない:モデル深さはモデル幅よりも大きな役割を果たす。
また、子ども向け音声などの単純な言語を事前学習することで、webテキストやwikipediaに基づくより一般的なデータセットを事前学習するよりも、桁違いに少ないデータを使用して階層的バイアスを生じさせることもわかった。
関連論文リスト
- Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - How poor is the stimulus? Evaluating hierarchical generalization in
neural networks trained on child-directed speech [25.02822854434971]
我々は、LSTMとトランスフォーマーを、子どもの言語入力に類似した量と内容、すなわちChiLDESコーパスからのテキストに基づいて訓練する。
どちらのモデル型も、正しい階層規則よりも誤った線形規則と整合性のある方法で一般化されることが分かる。
これらの結果は、標準的なニューラルネットワークアーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-01-26T23:24:17Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Coloring the Blank Slate: Pre-training Imparts a Hierarchical Inductive
Bias to Sequence-to-sequence Models [23.21767225871304]
シークエンス・ツー・シークエンス(seq2seq)モデルは、構文変換を行う際に階層性に敏感な方法で一般化できないことが多い。
事前学習されたSeq2seqモデルは、構文変換を行う際に階層的に一般化するが、構文変換でスクラッチから訓練されたモデルはそうではない。
論文 参考訳(メタデータ) (2022-03-17T15:46:53Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。