論文の概要: Finnish Language Modeling with Deep Transformer Models
- arxiv url: http://arxiv.org/abs/2003.11562v2
- Date: Fri, 27 Mar 2020 10:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 19:52:58.521168
- Title: Finnish Language Modeling with Deep Transformer Models
- Title(参考訳): 深いトランスフォーマーモデルを用いたフィンランド語モデル
- Authors: Abhilash Jain, Aku Ruohe, Stig-Arne Gr\"onroos, Mikko Kurimo
- Abstract要約: 言語モデリングタスクにおける Transformer-BERT と Transformer-XL の性能について検討する。
BERTは擬似パープレキシティスコアが14.5に達する。
Transformer-XLはパープレキシティスコアを73.58に改善し、LSTMモデルよりも27%向上した。
- 参考スコア(独自算出の注目度): 10.321630075961465
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Transformers have recently taken the center stage in language modeling after
LSTM's were considered the dominant model architecture for a long time. In this
project, we investigate the performance of the Transformer architectures-BERT
and Transformer-XL for the language modeling task. We use a sub-word model
setting with the Finnish language and compare it to the previous State of the
art (SOTA) LSTM model. BERT achieves a pseudo-perplexity score of 14.5, which
is the first such measure achieved as far as we know. Transformer-XL improves
upon the perplexity score to 73.58 which is 27\% better than the LSTM model.
- Abstract(参考訳): LSTMが長い間支配的なモデルアーキテクチャとみなされてきた後、トランスフォーマーは言語モデリングの中心的な段階に入った。
本稿では,言語モデリングタスクにおける Transformer Architectures-BERT と Transformer-XL の性能について検討する。
我々は、フィンランド語とサブワードモデルを用いて、以前の最先端技術(SOTA)LSTMモデルと比較する。
bert は 14.5 の疑似パープレキシティスコアを達成しており、これは我々が知る限りで最初に達成した尺度である。
Transformer-XLはパープレキシティスコアを73.58に改善し、LSTMモデルよりも27.5%向上した。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。
TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。
これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:53:39Z) - Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC [51.34222224728979]
本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるための一連の革新的な技術を紹介する。
我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。
自動回帰モデルと比較して16.35倍の速度向上を示した。
論文 参考訳(メタデータ) (2023-06-10T05:24:29Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Predicting Issue Types with seBERT [85.74803351913695]
seBERT は BERT アーキテクチャに基づいて開発されたモデルであるが、ゼロからソフトウェア工学のデータで訓練された。
問題型予測の課題に対して,NLBSEの課題に対して,このモデルを微調整した。
我々のモデルは、リコールとプリシシオの3つのイシュータイプすべてに対して、F1スコア全体の85.7%を達成するためのベースラインであるfastTextを支配している。
論文 参考訳(メタデータ) (2022-05-03T06:47:13Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - TEASEL: A Transformer-Based Speech-Prefixed Language Model [4.014524824655106]
マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としている。
lexiconの機能は、Transformerベースのモデルを通じて大きなコーパスで事前訓練されているため、他のモダリティよりも優れている。
高いパフォーマンスにもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティでトレーニングすることは、データ不足のため通常は不可能である。
論文 参考訳(メタデータ) (2021-09-12T14:08:57Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z) - TRANS-BLSTM: Transformer with Bidirectional LSTM for Language
Understanding [18.526060699574142]
Bidirectional Representations from Transformers (BERT)は、最近、幅広いNLPタスクで最先端のパフォーマンスを達成した。
本稿では,BLSTM層を各トランスブロックに統合したBLSTM(TRANS-BLSTM)を用いたTransformerというアーキテクチャを提案する。
本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
論文 参考訳(メタデータ) (2020-03-16T03:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。