論文の概要: Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale
- arxiv url: http://arxiv.org/abs/2203.00633v1
- Date: Tue, 1 Mar 2022 17:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 15:32:29.112677
- Title: Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale
- Title(参考訳): Transformer Grammars:Syntactic Inductive Biasesを大規模に拡張したTransformer Language Models
- Authors: Laurent Sartran, Samuel Barrett, Adhiguna Kuncoro, Milo\v{s}
Stanojevi\'c, Phil Blunsom, Chris Dyer
- Abstract要約: Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
- 参考スコア(独自算出の注目度): 31.293175512404172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models that are trained on vast amounts of data have
achieved remarkable success at various NLP benchmarks. Intriguingly, this
success is achieved by models that lack an explicit modeling of hierarchical
syntactic structures, which were hypothesized by decades of linguistic research
to be necessary for good generalization. This naturally leaves a question: to
what extent can we further improve the performance of Transformer language
models, through an inductive bias that encourages the model to explain the data
through the lens of recursive syntactic compositions? Although the benefits of
modeling recursive syntax have been shown at the small data and model scales,
it remains an open question whether -- and to what extent -- a similar design
principle is still beneficial in the case of powerful Transformer language
models that work well at scale. To answer these questions, we introduce
Transformer Grammars -- a novel class of Transformer language models that
combine: (i) the expressive power, scalability, and strong performance of
Transformers, and (ii) recursive syntactic compositions, which here are
implemented through a special attention mask. We find that Transformer Grammars
outperform various strong baselines on multiple syntax-sensitive language
modeling evaluation metrics, in addition to sentence-level language modeling
perplexity. Nevertheless, we find that the recursive syntactic composition
bottleneck harms perplexity on document-level modeling, providing evidence that
a different kind of memory mechanism -- that works independently of syntactic
structures -- plays an important role in the processing of long-form text.
- Abstract(参考訳): 大量のデータに基づいて訓練されたトランスフォーマー言語モデルは、様々なNLPベンチマークで顕著な成功を収めた。
興味深いことに、この成功は階層的な構文構造の明確なモデリングが欠如しているモデルによって達成される。
モデルに再帰的構文合成のレンズを通してデータを説明させる帰納的バイアスを通じて、トランスフォーマー言語モデルの性能をさらに向上させるにはどうすればよいのか?
再帰構文のモデリングの利点は、小さなデータとモデルスケールで示されてきたが、同様の設計原則が、スケールでうまく機能する強力なトランスフォーマー言語モデルの場合、なおも有益であるかどうか、という疑問は未解決である。
これらの質問に答えるために、トランスフォーマー文法(transformer grammars)を紹介します。
(i)変圧器の表現力、拡張性、強力な性能、及び
(ii)特別な注意マスクを通して実施する再帰的構文合成。
Transformer Grammarsは、文レベルの言語モデリングの難易度に加えて、複数の構文に敏感な言語モデリング評価指標において、様々な強力なベースラインを上回ります。
それにもかかわらず、再帰的構文構成のボトルネックは文書レベルのモデリングの難易度を損なうことが判明し、構文構造とは独立して動作する異なる種類の記憶機構が、長文の処理において重要な役割を果たすことを示す。
関連論文リスト
- Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Oracle Linguistic Graphs Complement a Pretrained Transformer Language
Model: A Cross-formalism Comparison [13.31232311913236]
言語グラフ表現が神経言語モデリングを補完し改善する程度について検討する。
全体としては、セマンティックな選挙区構造は言語モデリングのパフォーマンスに最も有用である。
論文 参考訳(メタデータ) (2021-12-15T04:29:02Z) - Structural Guidance for Transformer Language Models [24.00537240110055]
本研究では,トランスフォーマー言語モデルにおける構造的ガイダンスが,より人間らしい体系的言語一般化につながるかどうかを考察する。
実験結果から、生成的構造的監督がより堅牢で人間らしい言語的一般化を誘導できるという確固たる証拠が示唆された。
論文 参考訳(メタデータ) (2021-07-30T23:14:51Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - On the Ability and Limitations of Transformers to Recognize Formal
Languages [9.12267978757844]
カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
論文 参考訳(メタデータ) (2020-09-23T17:21:33Z) - Retrofitting Structure-aware Transformer Language Model for End Tasks [34.74181162627023]
エンドタスクを容易にするための構造対応トランスフォーマー言語モデルについて検討する。
中層構造学習戦略は構造統合に活用される。
実験結果から, 再構成構造対応トランスフォーマー言語モデルにより, パープレキシティが向上することが確認された。
論文 参考訳(メタデータ) (2020-09-16T01:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。