Fugu-MT 論文翻訳(概要): On the Ability and Limitations of Transformers to Recognize Formal Languages

論文の概要: On the Ability and Limitations of Transformers to Recognize Formal Languages

arxiv url: http://arxiv.org/abs/2009.11264v2
Date: Thu, 8 Oct 2020 12:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 15:26:58.343444
Title: On the Ability and Limitations of Transformers to Recognize Formal Languages
Title（参考訳）: 形式言語認識におけるトランスフォーマーの能力と限界について
Authors: Satwik Bhattamishra, Kabir Ahuja, Navin Goyal
Abstract要約: カウンター言語のサブクラスのためのトランスフォーマーの構築を提供する。トランスフォーマーはこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。おそらく、LSTMとは対照的に、Transformerはパフォーマンスが低下する正規言語のサブセットでのみ動作する。
参考スコア（独自算出の注目度）: 9.12267978757844
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers have supplanted recurrent models in a large number of NLP tasks. However, the differences in their abilities to model different syntactic properties remain largely unknown. Past works suggest that LSTMs generalize very well on regular languages and have close connections with counter languages. In this work, we systematically study the ability of Transformers to model such languages as well as the role of its individual components in doing so. We first provide a construction of Transformers for a subclass of counter languages, including well-studied languages such as n-ary Boolean Expressions, Dyck-1, and its generalizations. In experiments, we find that Transformers do well on this subclass, and their learned mechanism strongly correlates with our construction. Perhaps surprisingly, in contrast to LSTMs, Transformers do well only on a subset of regular languages with degrading performance as we make languages more complex according to a well-known measure of complexity. Our analysis also provides insights on the role of self-attention mechanism in modeling certain behaviors and the influence of positional encoding schemes on the learning and generalization abilities of the model.
Abstract（参考訳）: トランスフォーマーは多くのNLPタスクでリカレントモデルに取って代わった。しかし、異なる構文特性をモデル化する能力の違いはほとんど不明である。過去の研究は、LSTMが正規言語を非常によく一般化し、対向言語と密接な関係を持つことを示唆している。本研究では,このような言語をモデル化するトランスフォーマーの能力と,それを行う個々のコンポーネントの役割を体系的に研究する。まず, n-ary boolean expression, dyck-1, and its generalization などのよく研究された言語を含む,カウンター言語のサブクラスに対するトランスフォーマーの構成について述べる。実験ではトランスフォーマーがこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。おそらく、LSTMとは対照的に、トランスフォーマーは、よく知られた複雑さの尺度に従って言語をより複雑にするので、パフォーマンスを低下させる通常の言語のサブセットでのみうまく機能します。また,ある行動のモデル化における自己注意機構の役割と,モデルの学習・一般化能力に対する位置符号化方式の影響について考察した。

関連論文リスト

Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
Extracting Finite State Machines from Transformers [0.3069335774032178]
機械的解釈可能性の観点から正規言語で訓練された変圧器の訓練可能性について検討する。有限個の記号が状態を決定するとき, 変圧器の訓練性に対して, より強い下界を経験的に見出す。機械的な洞察により、1層トランスフォーマーが優れた長さの一般化で学習できる正規言語を特徴付けることができる。
論文参考訳（メタデータ） (2024-10-08T13:43:50Z)
Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文参考訳（メタデータ） (2024-10-03T21:21:02Z)
A Transformer with Stack Attention [84.18399019794036]
本稿では,変圧器をベースとした言語モデルの拡張手法を提案する。我々のスタックベースのアテンションメカニズムは、トランスフォーマーベースの言語モデルに組み込むことができ、モデルに解釈可能性のレベルを追加することができる。スタックベースのアテンション機構の追加により、トランスフォーマーは、決定論的文脈自由言語をモデル化できるが、全てではない。
論文参考訳（メタデータ） (2024-05-07T17:47:57Z)
Revenge of the Fallen? Recurrent Models Match Transformers at Predicting Human Language Comprehension Metrics [3.3932293160775298]
現代のリカレントモデルでは,オンラインの人間の言語理解をモデル化する上で,比較可能な大きさのトランスフォーマーの性能を - そして場合によっては - 上回ることができることを示す。このことは、トランスフォーマー言語モデルがこのタスクに一意に適していないことを示唆し、言語モデルのアーキテクチャ的特徴が人間の言語理解のモデルをより良く、より悪いものにするかどうかについての議論のための新たな方向性を開くことを示唆している。
論文参考訳（メタデータ） (2024-04-30T01:02:15Z)
Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文参考訳（メタデータ） (2024-04-25T07:10:29Z)
Evaluating Transformer's Ability to Learn Mildly Context-Sensitive Languages [6.227678387562755]
近年の研究では、非正規言語や文脈自由言語でさえ、自己意識は理論的に学習に限られていることが示唆されている。様々な複雑さの文脈に敏感な言語を学習するトランスフォーマーの能力をテストする。分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,計数行動を示した。
論文参考訳（メタデータ） (2023-09-02T08:17:29Z)
Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文参考訳（メタデータ） (2022-08-11T22:42:24Z)
Transformer Grammars: Augmenting Transformer Language Models with Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文参考訳（メタデータ） (2022-03-01T17:22:31Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
Segatron: Segment-Aware Transformer for Language Modeling and Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。 WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。