論文の概要: Does syntax need to grow on trees? Sources of hierarchical inductive
bias in sequence-to-sequence networks
- arxiv url: http://arxiv.org/abs/2001.03632v1
- Date: Fri, 10 Jan 2020 19:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:04:24.098356
- Title: Does syntax need to grow on trees? Sources of hierarchical inductive
bias in sequence-to-sequence networks
- Title(参考訳): 構文は木に育つ必要があるか?
sequence-to-sequence networkにおける階層的帰納的バイアスの源
- Authors: R. Thomas McCoy, Robert Frank, Tal Linzen
- Abstract要約: ニューラルネットワークモデルでは、帰納バイアスは理論上モデルアーキテクチャのあらゆる側面から生じる可能性がある。
2つの構文的タスクで訓練されたニューラルシークエンス・ツー・シーケンスモデルの一般化挙動にどのようなアーキテクチャ的要因が影響を及ぼすかを検討する。
- 参考スコア(独自算出の注目度): 28.129220683169052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learners that are exposed to the same training data might generalize
differently due to differing inductive biases. In neural network models,
inductive biases could in theory arise from any aspect of the model
architecture. We investigate which architectural factors affect the
generalization behavior of neural sequence-to-sequence models trained on two
syntactic tasks, English question formation and English tense reinflection. For
both tasks, the training set is consistent with a generalization based on
hierarchical structure and a generalization based on linear order. All
architectural factors that we investigated qualitatively affected how models
generalized, including factors with no clear connection to hierarchical
structure. For example, LSTMs and GRUs displayed qualitatively different
inductive biases. However, the only factor that consistently contributed a
hierarchical bias across tasks was the use of a tree-structured model rather
than a model with sequential recurrence, suggesting that human-like syntactic
generalization requires architectural syntactic structure.
- Abstract(参考訳): 同じトレーニングデータに露出した学習者は、誘導バイアスが異なるため、異なる一般化を行う可能性がある。
ニューラルネットワークモデルでは、帰納バイアスは理論上モデルアーキテクチャのあらゆる側面から生じる可能性がある。
英語質問生成と英語時制再帰という2つの構文課題を訓練した神経シーケンスからシーケンスへのモデルの一般化行動にどのような建築的要因が影響するかを検討した。
どちらのタスクにおいても、トレーニングセットは階層構造に基づく一般化と線形順序に基づく一般化と一致する。
検討したすべてのアーキテクチャ要因は,階層構造との明確な関係を持たない因子を含む,モデルの一般化の仕方に影響した。
例えば、LSTMとGRUは質的に異なる誘導バイアスを示した。
しかし、タスク間の階層的バイアスに一貫して寄与する唯一の要因は、連続的な反復モデルではなく木構造モデルを使用することであり、人間のような構文一般化はアーキテクチャの構文構造を必要とすることを示唆している。
関連論文リスト
- When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
この研究は、トレーニングデータの統計的構造が構成一般化にどのように影響するかに関する理論的視点を提供する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - How poor is the stimulus? Evaluating hierarchical generalization in
neural networks trained on child-directed speech [25.02822854434971]
我々は、LSTMとトランスフォーマーを、子どもの言語入力に類似した量と内容、すなわちChiLDESコーパスからのテキストに基づいて訓練する。
どちらのモデル型も、正しい階層規則よりも誤った線形規則と整合性のある方法で一般化されることが分かる。
これらの結果は、標準的なニューラルネットワークアーキテクチャの一般的なシーケンス処理バイアスよりも強いバイアスを必要とすることを示唆している。
論文 参考訳(メタデータ) (2023-01-26T23:24:17Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - ORCHARD: A Benchmark For Measuring Systematic Generalization of
Multi-Hierarchical Reasoning [8.004425059996963]
本稿では,Transformer と LSTM のモデルが体系的一般化において驚くほど失敗することを示す。
また、階層間の参照の増加に伴い、Transformerはランダムにしか動作しないことを示す。
論文 参考訳(メタデータ) (2021-11-28T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。