論文の概要: On the Ability and Limitations of Transformers to Recognize Formal
Languages
- arxiv url: http://arxiv.org/abs/2009.11264v2
- Date: Thu, 8 Oct 2020 12:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:26:58.343444
- Title: On the Ability and Limitations of Transformers to Recognize Formal
Languages
- Title(参考訳): 形式言語認識におけるトランスフォーマーの能力と限界について
- Authors: Satwik Bhattamishra, Kabir Ahuja, Navin Goyal
- Abstract要約: カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。
トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
- 参考スコア(独自算出の注目度): 9.12267978757844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have supplanted recurrent models in a large number of NLP tasks.
However, the differences in their abilities to model different syntactic
properties remain largely unknown. Past works suggest that LSTMs generalize
very well on regular languages and have close connections with counter
languages. In this work, we systematically study the ability of Transformers to
model such languages as well as the role of its individual components in doing
so. We first provide a construction of Transformers for a subclass of counter
languages, including well-studied languages such as n-ary Boolean Expressions,
Dyck-1, and its generalizations. In experiments, we find that Transformers do
well on this subclass, and their learned mechanism strongly correlates with our
construction. Perhaps surprisingly, in contrast to LSTMs, Transformers do well
only on a subset of regular languages with degrading performance as we make
languages more complex according to a well-known measure of complexity. Our
analysis also provides insights on the role of self-attention mechanism in
modeling certain behaviors and the influence of positional encoding schemes on
the learning and generalization abilities of the model.
- Abstract(参考訳): トランスフォーマーは多くのNLPタスクでリカレントモデルに取って代わった。
しかし、異なる構文特性をモデル化する能力の違いはほとんど不明である。
過去の研究は、LSTMが正規言語を非常によく一般化し、対向言語と密接な関係を持つことを示唆している。
本研究では,このような言語をモデル化するトランスフォーマーの能力と,それを行う個々のコンポーネントの役割を体系的に研究する。
まず, n-ary boolean expression, dyck-1, and its generalization などのよく研究された言語を含む,カウンター言語のサブクラスに対するトランスフォーマーの構成について述べる。
実験ではトランスフォーマーがこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。
おそらく、LSTMとは対照的に、トランスフォーマーは、よく知られた複雑さの尺度に従って言語をより複雑にするので、パフォーマンスを低下させる通常の言語のサブセットでのみうまく機能します。
また,ある行動のモデル化における自己注意機構の役割と,モデルの学習・一般化能力に対する位置符号化方式の影響について考察した。
関連論文リスト
- Repeat After Me: Transformers are Better than State Space Models at
Copying [57.37277256818516]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - A Meta-Learning Perspective on Transformers for Causal Language Modeling [20.430255724239448]
Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。
因果言語モデリングタスクのトレーニングにおいて,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。
論文 参考訳(メタデータ) (2023-10-09T17:27:36Z) - Evaluating Transformer's Ability to Learn Mildly Context-Sensitive
Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。
様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。
分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文 参考訳(メタデータ) (2023-09-02T08:17:29Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Structural Guidance for Transformer Language Models [24.00537240110055]
本研究では,トランスフォーマー言語モデルにおける構造的ガイダンスが,より人間らしい体系的言語一般化につながるかどうかを考察する。
実験結果から、生成的構造的監督がより堅牢で人間らしい言語的一般化を誘導できるという確固たる証拠が示唆された。
論文 参考訳(メタデータ) (2021-07-30T23:14:51Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。