論文の概要: Neural Machine Translation without Embeddings
- arxiv url: http://arxiv.org/abs/2008.09396v2
- Date: Mon, 12 Apr 2021 13:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 20:43:57.722590
- Title: Neural Machine Translation without Embeddings
- Title(参考訳): 埋め込みのないニューラルマシン翻訳
- Authors: Uri Shaham and Omer Levy
- Abstract要約: 多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
- 参考スコア(独自算出の注目度): 44.129310924201604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many NLP models operate over sequences of subword tokens produced by
hand-crafted tokenization rules and heuristic subword induction algorithms. A
simple universal alternative is to represent every computerized text as a
sequence of bytes via UTF-8, obviating the need for an embedding layer since
there are fewer token types (256) than dimensions. Surprisingly, replacing the
ubiquitous embedding layer with one-hot representations of each byte does not
hurt performance; experiments on byte-to-byte machine translation from English
to 10 different languages show a consistent improvement in BLEU, rivaling
character-level and even standard subword-level models. A deeper investigation
reveals that the combination of embeddingless models with decoder-input dropout
amounts to token dropout, which benefits byte-to-byte models in particular.
- Abstract(参考訳): 多くのNLPモデルは、手作りのトークン化規則とヒューリスティックなサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な選択肢は、すべてのコンピュータ化されたテキストをUTF-8を介してバイトのシーケンスとして表現することであり、次元よりもトークンタイプ (256) が少ないため、埋め込み層の必要性を回避している。
驚くべきことに、ユビキタスな埋め込み層を各バイトの1ホット表現に置き換えることは、パフォーマンスを損なうことはない。英語から10の異なる言語へのバイト単位の機械翻訳の実験は、BLEUの一貫性のある改善を示し、文字レベルや標準のサブワードレベルのモデルに匹敵する。
より深い調査によると、デコーダインプットのドロップアウトと埋め込みレスモデルの組み合わせはトークンのドロップアウトに相当し、特にバイト単位のモデルに有効である。
関連論文リスト
- Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.532359202069063]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-28T07:03:22Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。