論文の概要: Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations
- arxiv url: http://arxiv.org/abs/2112.09174v1
- Date: Thu, 16 Dec 2021 19:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:12:03.630740
- Title: Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations
- Title(参考訳): LSTMとトランスフォーマーによる境界自由文法の学習:差分と説明
- Authors: Hui Shi, Sicun Gao, Yuandong Tian, Xinyun Chen, Jishen Zhao
- Abstract要約: Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
- 参考スコア(独自算出の注目度): 51.77000472945441
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long Short-Term Memory (LSTM) and Transformers are two popular neural
architectures used for natural language processing tasks. Theoretical results
show that both are Turing-complete and can represent any context-free language
(CFL).In practice, it is often observed that Transformer models have better
representation power than LSTM. But the reason is barely understood. We study
such practical differences between LSTM and Transformer and propose an
explanation based on their latent space decomposition patterns. To achieve this
goal, we introduce an oracle training paradigm, which forces the decomposition
of the latent representation of LSTM and the Transformer and supervises with
the transitions of the Pushdown Automaton (PDA) of the corresponding CFL. With
the forced decomposition, we show that the performance upper bounds of LSTM and
Transformer in learning CFL are close: both of them can simulate a stack and
perform stack operation along with state transitions. However, the absence of
forced decomposition leads to the failure of LSTM models to capture the stack
and stack operations, while having a marginal impact on the Transformer model.
Lastly, we connect the experiment on the prototypical PDA to a real-world
parsing task to re-verify the conclusions
- Abstract(参考訳): Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
理論的結果はどちらもチューリング完全であり、文脈自由言語(CFL)を表現可能であることを示している。
実際、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
しかし、その理由はほとんど分かっていない。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
この目的を達成するために,LSTMとトランスフォーマーの潜伏表現の分解を強制し,対応するCFLのプッシュダウンオートマトン(PDA)の遷移を監督するオラクルトレーニングパラダイムを導入する。
強制分解により、学習cflにおけるlstmとtransformerの性能上界が近いことが示される: どちらもスタックをシミュレートし、状態遷移と共にスタック操作を実行することができる。
しかし、強制的な分解がないため、LSTMモデルではスタックとスタックの操作をキャプチャできないが、Transformerモデルには限界がある。
最後に、プロトタイプPDAの実験を現実世界の構文解析タスクに接続し、結論を再検証する。
関連論文リスト
- Can Transformers Learn $n$-gram Language Models? [77.35809823602307]
2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。
例えば、$n$-gram LMに対する古典的な推定手法として、add-$lambda$ smoothing outperform transformerがある。
論文 参考訳(メタデータ) (2024-10-03T21:21:02Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Exploiting Transformer in Sparse Reward Reinforcement Learning for
Interpretable Temporal Logic Motion Planning [9.801466218905604]
オートマトンベースのアルゴリズムは、考慮されたタスクに対して、手動でカスタマイズされた状態表現に依存する。
本研究では,Transformer の構造的特徴を2回活用する Double-Transformer-Guided Temporal Logic framework (T2TL) を開発した。
セマンティクスとして、複雑なタスクを学習可能なサブゴールに分解するために進行を利用する。
論文 参考訳(メタデータ) (2022-09-27T07:41:11Z) - TRANS-BLSTM: Transformer with Bidirectional LSTM for Language
Understanding [18.526060699574142]
Bidirectional Representations from Transformers (BERT)は、最近、幅広いNLPタスクで最先端のパフォーマンスを達成した。
本稿では,BLSTM層を各トランスブロックに統合したBLSTM(TRANS-BLSTM)を用いたTransformerというアーキテクチャを提案する。
本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
論文 参考訳(メタデータ) (2020-03-16T03:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。