論文の概要: Assessing the Importance of Frequency versus Compositionality for
Subword-based Tokenization in NMT
- arxiv url: http://arxiv.org/abs/2306.01393v2
- Date: Mon, 5 Jun 2023 09:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 11:13:50.287255
- Title: Assessing the Importance of Frequency versus Compositionality for
Subword-based Tokenization in NMT
- Title(参考訳): NMTにおけるサブワードベーストークン化における周波数と構成性の重要性の評価
- Authors: Benoist Wolleb, Romain Silvestri, Giorgos Vernikos, Ljiljana Dolamic,
Andrei Popescu-Belis
- Abstract要約: サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。
3つの利点は、頻繁なトークンの符号化の短縮、サブワードの合成性、未知の単語を扱う能力である。
コンポジション性から周波数を分離できるトークン化手法を提案する。
- 参考スコア(独自算出の注目度): 2.01106838362834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization is the de facto standard for tokenization in neural
language models and machine translation systems. Three advantages are
frequently cited in favor of subwords: shorter encoding of frequent tokens,
compositionality of subwords, and ability to deal with unknown words. As their
relative importance is not entirely clear yet, we propose a tokenization
approach that enables us to separate frequency (the first advantage) from
compositionality. The approach uses Huffman coding to tokenize words, by order
of frequency, using a fixed amount of symbols. Experiments with CS-DE, EN-FR
and EN-DE NMT show that frequency alone accounts for 90%-95% of the scores
reached by BPE, hence compositionality has less importance than previously
thought.
- Abstract(参考訳): サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。
サブワードには、頻繁なトークンの短いエンコーディング、サブワードの構成性、未知語を扱う能力という3つの利点がある。
相対的な重要性は明らかになっていないため、コンポジション性から周波数(第一の利点)を分離できるトークン化手法を提案する。
このアプローチでは、Huffmanコーディングを使用して、一定量のシンボルを使用して、単語を周波数順にトークン化する。
CS-DE, EN-FR, EN-DE NMTによる実験では、BPEが到達したスコアの90%-95%は周波数だけで占めることがわかった。
関連論文リスト
- Team Ryu's Submission to SIGMORPHON 2024 Shared Task on Subword Tokenization [3.0023392750520883]
サブワードトークン化手法の一部として形態素セグメンテーション法が利用できるかどうかを考察する。
予測結果から, 形態的セグメンテーションは, 一般的に使われているサブワードトークン化剤と同じくらい有効である可能性が示唆された。
バランスの取れたトークンの頻度分布を持つトークン化器は、よりうまく機能する傾向にある。
論文 参考訳(メタデータ) (2024-10-19T04:06:09Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge [10.721272718226848]
サブワードトークン化のための内在的・外在的評価フレームワークを提案する。
Intrepidの評価は、私たちの新しいUniMorph Labellerツールに基づいており、サブワードのトークン化を形態学または異星人として分類する。
実験の結果、UniMorph Labellerの精度は98%であり、異種トークン化はより低い一般化をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-20T06:49:15Z) - N-gram Boosting: Improving Contextual Biasing with Normalized N-gram
Targets [1.9908600514057855]
単一トークンではなく、正規化されたユニグラムとn-グラムで動作する2段階のキーワードブースティング機構を提案する。
これにより、独自のドメイン内データセットに対して26%、LibriSpeechでは2%のキーワード認識率が改善されます。
論文 参考訳(メタデータ) (2023-08-04T00:23:14Z) - Boosting word frequencies in authorship attribution [0.0]
本稿では,著者帰属や類似のテクスチャタスクに対して,比較的簡単な単語頻度計算手法を提案する。
関連する単語の概念は同義語を含み、通常、ある意味的にある単語に類似したいくつかの他の単語を含む。
提案手法は古典的最頻単語のアプローチを大幅に上回る。
論文 参考訳(メタデータ) (2022-11-02T17:11:35Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。