論文の概要: Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning
Subword Systems
- arxiv url: http://arxiv.org/abs/2004.14280v2
- Date: Tue, 29 Sep 2020 14:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:52:19.303864
- Title: Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning
Subword Systems
- Title(参考訳): 微調整サブワードシステムによる文字レベル変換器NMTの実現に向けて
- Authors: Jind\v{r}ich Libovick\'y, Alexander Fraser
- Abstract要約: トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。
我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。
- 参考スコア(独自算出の注目度): 78.80826533405019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying the Transformer architecture on the character level usually requires
very deep architectures that are difficult and slow to train. These problems
can be partially overcome by incorporating a segmentation into tokens in the
model. We show that by initially training a subword model and then finetuning
it on characters, we can obtain a neural machine translation model that works
at the character level without requiring token segmentation. We use only the
vanilla 6-layer Transformer Base architecture. Our character-level models
better capture morphological phenomena and show more robustness to noise at the
expense of somewhat worse overall translation quality. Our study is a
significant step towards high-performance and easy to train character-based
models that are not extremely large.
- Abstract(参考訳): 文字レベルでTransformerアーキテクチャを適用するには、通常、訓練が困難で遅い非常に深いアーキテクチャが必要です。
これらの問題は、モデルのトークンにセグメンテーションを組み込むことによって部分的に克服できる。
サブワードモデルをトレーニングして文字に微調整することで、トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。
バニラ6層トランスフォーマーベースアーキテクチャのみを使用します。
我々のキャラクタレベルモデルは、全体的な翻訳品質を多少悪化させながら、形態的現象を捉え、ノイズに対してより堅牢性を示す。
我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。
関連論文リスト
- Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文 参考訳(メタデータ) (2023-05-09T14:00:15Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - Character-level Transformer-based Neural Machine Translation [5.699756532377753]
本稿では,トランスフォーマーをベースとした新しい手法について論じる。スピードと品質を,サブワードレベルでのトランスフォーマーとキャラクタレベルで比較する。
WMT'15: DE-EN, CS-EN, FI-EN, RU-ENの4つの言語対について評価を行った。
提案された新しいアーキテクチャは、単一のGPUでトレーニングすることが可能で、キャラクタレベルのTransformerよりも34%高速である。
論文 参考訳(メタデータ) (2020-05-22T15:40:43Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。