論文の概要: TRANS-BLSTM: Transformer with Bidirectional LSTM for Language
Understanding
- arxiv url: http://arxiv.org/abs/2003.07000v1
- Date: Mon, 16 Mar 2020 03:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:46:21.783265
- Title: TRANS-BLSTM: Transformer with Bidirectional LSTM for Language
Understanding
- Title(参考訳): Trans-BLSTM:言語理解のための双方向LSTM変換器
- Authors: Zhiheng Huang, Peng Xu, Davis Liang, Ajay Mishra, Bing Xiang
- Abstract要約: Bidirectional Representations from Transformers (BERT)は、最近、幅広いNLPタスクで最先端のパフォーマンスを達成した。
本稿では,BLSTM層を各トランスブロックに統合したBLSTM(TRANS-BLSTM)を用いたTransformerというアーキテクチャを提案する。
本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
- 参考スコア(独自算出の注目度): 18.526060699574142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bidirectional Encoder Representations from Transformers (BERT) has recently
achieved state-of-the-art performance on a broad range of NLP tasks including
sentence classification, machine translation, and question answering. The BERT
model architecture is derived primarily from the transformer. Prior to the
transformer era, bidirectional Long Short-Term Memory (BLSTM) has been the
dominant modeling architecture for neural machine translation and question
answering. In this paper, we investigate how these two modeling techniques can
be combined to create a more powerful model architecture. We propose a new
architecture denoted as Transformer with BLSTM (TRANS-BLSTM) which has a BLSTM
layer integrated to each transformer block, leading to a joint modeling
framework for transformer and BLSTM. We show that TRANS-BLSTM models
consistently lead to improvements in accuracy compared to BERT baselines in
GLUE and SQuAD 1.1 experiments. Our TRANS-BLSTM model obtains an F1 score of
94.01% on the SQuAD 1.1 development dataset, which is comparable to the
state-of-the-art result.
- Abstract(参考訳): 変換器による双方向エンコーダ表現(BERT)は、最近、文分類、機械翻訳、質問応答を含む幅広いNLPタスクにおいて最先端のパフォーマンスを達成した。
BERTモデルアーキテクチャは主にトランスから派生している。
変換器時代以前、双方向Long-Term Memory (BLSTM) はニューラルマシン翻訳と質問応答の主要なモデリングアーキテクチャであった。
本稿では,これら2つのモデリング技術を組み合わせて,より強力なモデルアーキテクチャを構築する方法について検討する。
本稿では,各トランスブロックにBLSTM層を組み込んだBLSTMを用いたトランスフォーマー(TRANS-BLSTM)を提案する。
本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
我々のTrans-BLSTMモデルは、SQuAD 1.1開発データセット上で94.01%のF1スコアを得る。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (2024-05-07T17:50:21Z) - Transformers versus LSTMs for electronic trading [0.0]
本研究では,Transformerベースのモデルが金融時系列予測に適用可能か,LSTMに勝るかを検討する。
DLSTMと呼ばれるLSTMベースの新しいモデルを構築し、Transformerベースのモデルのための新しいアーキテクチャは、財務予測に適応するように設計されている。
実験結果は,Transformerベースのモデルが絶対価格列予測において限られた優位性しか持たないことを反映している。
論文 参考訳(メタデータ) (2023-09-20T15:25:43Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Rewiring the Transformer with Depth-Wise LSTMs [55.50278212605607]
カスケードトランスとサブ層を接続する奥行きLSTMを用いたトランスフォーマーを提案する。
6層トランスを用いた実験では、WMT 14英語/ドイツ語/フランス語タスクとOPUS-100多言語NMTタスクの両方でBLEUが大幅に改善された。
論文 参考訳(メタデータ) (2020-07-13T09:19:34Z) - Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR
in Transfer Learning [37.55706646713447]
低リソースのエンドツーエンドASRを改善するために,Transformer-LSTMをベースとしたハイブリッドアーキテクチャを提案する。
我々は、限られたラベル付きデータと大量の余分なテキストを含む社内マレーコーパスで実験を行う。
全体として、最高のモデルでは、Vanilla Transformer ASRを11.9%向上させています。
論文 参考訳(メタデータ) (2020-05-21T00:56:42Z) - Finnish Language Modeling with Deep Transformer Models [10.321630075961465]
言語モデリングタスクにおける Transformer-BERT と Transformer-XL の性能について検討する。
BERTは擬似パープレキシティスコアが14.5に達する。
Transformer-XLはパープレキシティスコアを73.58に改善し、LSTMモデルよりも27%向上した。
論文 参考訳(メタデータ) (2020-03-14T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。