論文の概要: Transformer based Multilingual document Embedding model
- arxiv url: http://arxiv.org/abs/2008.08567v2
- Date: Thu, 20 Aug 2020 16:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 08:40:22.242393
- Title: Transformer based Multilingual document Embedding model
- Title(参考訳): トランスベース多言語文書埋め込みモデル
- Authors: Wei Li and Brian Mak
- Abstract要約: 本稿では,変圧器を用いた文/文書埋め込みモデルT-LASERを提案する。
第一に、BiLSTMレイヤは、より長いテキストでシーケンシャルなパターンを学習できるアテンションベースのトランスフォーマーレイヤに置き換えられる。
第二に、繰り返しがないため、T-LASERはエンコーダの高速な並列計算を可能にし、テキスト埋め込みを生成する。
- 参考スコア(独自算出の注目度): 22.346360611417648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the current state-of-the-art multilingual document embedding model
LASER is based on the bidirectional LSTM neural machine translation model. This
paper presents a transformer-based sentence/document embedding model, T-LASER,
which makes three significant improvements. Firstly, the BiLSTM layers is
replaced by the attention-based transformer layers, which is more capable of
learning sequential patterns in longer texts. Secondly, due to the absence of
recurrence, T-LASER enables faster parallel computations in the encoder to
generate the text embedding. Thirdly, we augment the NMT translation loss
function with an additional novel distance constraint loss. This distance
constraint loss would further bring the embeddings of parallel sentences close
together in the vector space; we call the T-LASER model trained with distance
constraint, cT-LASER. Our cT-LASER model significantly outperforms both
BiLSTM-based LASER and the simpler transformer-based T-LASER.
- Abstract(参考訳): 現在の最先端多言語文書埋め込みモデルLASERの1つは、双方向LSTMニューラルマシン翻訳モデルに基づいている。
本稿では,変圧器を用いた文/文書埋め込みモデルT-LASERを提案する。
まず、bilstm層は注意に基づくトランスフォーマー層に置き換えられ、より長いテキストでシーケンシャルなパターンを学習することができる。
第二に、繰り返しがないため、T-LASERはエンコーダの高速な並列計算を可能にし、テキスト埋め込みを生成する。
第3に,NMT翻訳損失関数を新たな距離制約損失で拡張する。
この距離制約損失は、ベクトル空間に平行文の埋め込みをさらに密着させ、距離制約で訓練されたT-LASERモデル(cT-LASER)と呼ぶ。
当社のcT-LASERモデルは, BiLSTM ベースの LASER と, より単純な変換器ベースの T-LASER とを比較検討した。
関連論文リスト
- Multilingual Controllable Transformer-Based Lexical Simplification [4.718531520078843]
本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
論文 参考訳(メタデータ) (2023-07-05T08:48:19Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。
我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文 参考訳(メタデータ) (2023-05-26T14:37:38Z) - Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers [71.32827362323205]
我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。
様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。
これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
論文 参考訳(メタデータ) (2023-02-03T18:57:17Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Leveraging Text Data Using Hybrid Transformer-LSTM Based End-to-End ASR
in Transfer Learning [37.55706646713447]
低リソースのエンドツーエンドASRを改善するために,Transformer-LSTMをベースとしたハイブリッドアーキテクチャを提案する。
我々は、限られたラベル付きデータと大量の余分なテキストを含む社内マレーコーパスで実験を行う。
全体として、最高のモデルでは、Vanilla Transformer ASRを11.9%向上させています。
論文 参考訳(メタデータ) (2020-05-21T00:56:42Z) - TRANS-BLSTM: Transformer with Bidirectional LSTM for Language
Understanding [18.526060699574142]
Bidirectional Representations from Transformers (BERT)は、最近、幅広いNLPタスクで最先端のパフォーマンスを達成した。
本稿では,BLSTM層を各トランスブロックに統合したBLSTM(TRANS-BLSTM)を用いたTransformerというアーキテクチャを提案する。
本研究では,Trans-BLSTMモデルがGLUEおよびSQuAD 1.1実験のBERTベースラインと比較して常に精度の向上につながることを示す。
論文 参考訳(メタデータ) (2020-03-16T03:38:51Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。