Fugu-MT 論文翻訳(概要): How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases

論文の概要: How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases

arxiv url: http://arxiv.org/abs/2305.19905v1
Date: Wed, 31 May 2023 14:38:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 16:03:02.232737
Title: How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases
Title（参考訳）: 言語モデルに木を植える方法:構文的帰納的バイアスの発生に対するデータと構造的影響
Authors: Aaron Mueller, Tal Linzen
Abstract要約: 事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
参考スコア（独自算出の注目度）: 28.58785395946639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate syntactic representations are essential for robust generalization in natural language. Recent work has found that pre-training can teach language models to rely on hierarchical syntactic features - as opposed to incorrect linear features - when performing tasks after fine-tuning. We test what aspects of pre-training are important for endowing encoder-decoder Transformers with an inductive bias that favors hierarchical syntactic generalizations. We focus on architectural features (depth, width, and number of parameters), as well as the genre and size of the pre-training corpus, diagnosing inductive biases using two syntactic transformation tasks: question formation and passivization, both in English. We find that the number of parameters alone does not explain hierarchical generalization: model depth plays greater role than model width. We also find that pre-training on simpler language, such as child-directed speech, induces a hierarchical bias using an order-of-magnitude less data than pre-training on more typical datasets based on web text or Wikipedia; this suggests that in cognitively plausible language acquisition settings, neural language models may be more data-efficient than previously thought.
Abstract（参考訳）: 正確な構文表現は、自然言語の堅牢な一般化に不可欠である。最近の研究によると、事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴(誤った線形特徴ではなく)に依存するように言語モデルを教えることができる。我々は,エンコーダ・デコーダ変換器に階層的構文一般化を好む帰納バイアスを付与する上で,事前学習のどの側面が重要であるかを検証する。我々は,アーキテクチャ的特徴(深さ,幅,パラメータ数)と事前学習コーパスのジャンルとサイズに注目し,2つの構文変換タスク(質問生成と受動的化)を用いて帰納的バイアスを診断する。パラメータの数だけでは階層的一般化を説明できない:モデル深さはモデル幅よりも大きな役割を果たす。また、子ども向け音声などの単純な言語を事前学習することで、webテキストやwikipediaに基づくより一般的なデータセットを事前学習するよりも、桁違いに少ないデータを使用して階層的バイアスを生じさせることもわかった。

関連論文リスト

Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文参考訳（メタデータ） (2024-11-11T16:33:25Z)
Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文参考訳（メタデータ） (2024-05-28T17:01:22Z)
Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文参考訳（メタデータ） (2023-05-29T16:24:01Z)
How poor is the stimulus? Evaluating hierarchical generalization in neural networks trained on child-directed speech [25.02822854434971]
我々は、LSTMとトランスフォーマーを、子どもの言語入力に類似した量と内容、すなわちChiLDESコーパスからのテキストに基づいて訓練する。どちらのモデル型も、正しい階層規則よりも誤った線形規則と整合性のある方法で一般化されることが分かる。これらの結果は、標準的なニューラルネットワークアーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスを必要とすることを示唆している。
論文参考訳（メタデータ） (2023-01-26T23:24:17Z)
Is neural language acquisition similar to natural? A chronological probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文参考訳（メタデータ） (2022-07-01T17:24:11Z)
Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文参考訳（メタデータ） (2020-12-30T20:40:48Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Learning Which Features Matter: RoBERTa Acquires a Preference for Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。 MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文参考訳（メタデータ） (2020-10-11T22:09:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。