論文の概要: Structural Supervision Improves Few-Shot Learning and Syntactic
Generalization in Neural Language Models
- arxiv url: http://arxiv.org/abs/2010.05725v1
- Date: Mon, 12 Oct 2020 14:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:49:34.351174
- Title: Structural Supervision Improves Few-Shot Learning and Syntactic
Generalization in Neural Language Models
- Title(参考訳): ニューラルネットワークモデルにおけるFew-Shot学習と構文一般化の改良
- Authors: Ethan Wilcox, Peng Qian, Richard Futrell, Ryosuke Kohita, Roger Levy
and Miguel Ballesteros
- Abstract要約: 人間は最小限の経験から単語に関する構造的特性を学ぶことができる。
我々は、現代のニューラル言語モデルがこの行動を英語で再現する能力を評価する。
- 参考スコア(独自算出の注目度): 47.42249565529833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can learn structural properties about a word from minimal experience,
and deploy their learned syntactic representations uniformly in different
grammatical contexts. We assess the ability of modern neural language models to
reproduce this behavior in English and evaluate the effect of structural
supervision on learning outcomes. First, we assess few-shot learning
capabilities by developing controlled experiments that probe models' syntactic
nominal number and verbal argument structure generalizations for tokens seen as
few as two times during training. Second, we assess invariance properties of
learned representation: the ability of a model to transfer syntactic
generalizations from a base context (e.g., a simple declarative active-voice
sentence) to a transformed context (e.g., an interrogative sentence). We test
four models trained on the same dataset: an n-gram baseline, an LSTM, and two
LSTM-variants trained with explicit structural supervision (Dyer et al.,2016;
Charniak et al., 2016). We find that in most cases, the neural models are able
to induce the proper syntactic generalizations after minimal exposure, often
from just two examples during training, and that the two structurally
supervised models generalize more accurately than the LSTM model. All neural
models are able to leverage information learned in base contexts to drive
expectations in transformed contexts, indicating that they have learned some
invariance properties of syntax.
- Abstract(参考訳): 人間は、最小限の経験から単語の構造的性質を学び、学習した構文表現を異なる文法的文脈に均一に展開することができる。
現代のニューラル言語モデルが英語でこの行動を再現する能力を評価し,構造的監督が学習結果に与える影響を評価する。
まず,モデルの構文的名目数と言語的引数構造を学習中に2回も見られるトークンの一般化を探索する制御実験を開発することにより,少数ショット学習能力を評価する。
第二に、学習された表現の不変性を評価する: ベースコンテキスト(例えば、単純な宣言的アクティブ音声文)から変換されたコンテキスト(例えば、疑問文)に構文一般化を転送するモデルの能力。
同じデータセットでトレーニングされた4つのモデル(n-gramベースライン、LSTM、および明示的な構造管理によってトレーニングされたLSTM変異体(Dyer et al., 2016; Charniak et al., 2016)をテストする。
ほとんどの場合、ニューラルネットワークは、トレーニング中のわずか2つの例から、最小限の露光後に適切な構文一般化を誘導することができ、2つの構造的教師付きモデルはLSTMモデルよりも正確に一般化できる。
すべてのニューラルモデルは、ベースコンテキストで学習した情報を活用して、変換されたコンテキストでの期待を駆動し、構文の不変性を学習したことを示す。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Learning Disentangled Representations for Natural Language Definitions [0.0]
テキストデータの連続的な構文的・意味的規則性は、構造的バイアスと生成的要因の両方をモデルに提供するのに有効である、と我々は主張する。
本研究では,文型,定義文の表現的・意味的に密接なカテゴリに存在する意味的構造を利用して,不整合表現を学習するための変分オートエンコーダを訓練する。
論文 参考訳(メタデータ) (2022-09-22T14:31:55Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Coloring the Blank Slate: Pre-training Imparts a Hierarchical Inductive
Bias to Sequence-to-sequence Models [23.21767225871304]
シークエンス・ツー・シークエンス(seq2seq)モデルは、構文変換を行う際に階層性に敏感な方法で一般化できないことが多い。
事前学習されたSeq2seqモデルは、構文変換を行う際に階層的に一般化するが、構文変換でスクラッチから訓練されたモデルはそうではない。
論文 参考訳(メタデータ) (2022-03-17T15:46:53Z) - Syntactic Persistence in Language Models: Priming as a Window into
Abstract Language Representations [0.38498574327875945]
本稿では,現代のニューラル言語モデルが統語的プライミングにどの程度影響するかについて検討する。
プライミング強度と相互作用する様々な言語要因を制御できる大規模コーパスであるPrime-LMを新たに導入する。
単語と意味の相違があるが,同じ構文構造を持つ複数の文をプライミングした場合,驚くほど強いプライミング効果が報告される。
論文 参考訳(メタデータ) (2021-09-30T10:38:38Z) - Do Neural Models Learn Systematicity of Monotonicity Inference in
Natural Language? [41.649440404203595]
本稿では,ニューラルネットワークが自然言語の単調推論の体系性を学習できるかどうかを評価する手法を提案する。
単調性推論の4つの側面を考察し、モデルが異なるトレーニング/テスト分割における語彙的および論理的現象を体系的に解釈できるかどうかを検証する。
論文 参考訳(メタデータ) (2020-04-30T14:48:39Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。