論文の概要: One Size Does Not Fit All: Finding the Optimal N-gram Sizes for FastText
Models across Languages
- arxiv url: http://arxiv.org/abs/2102.02585v1
- Date: Thu, 4 Feb 2021 12:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:32:34.034344
- Title: One Size Does Not Fit All: Finding the Optimal N-gram Sizes for FastText
Models across Languages
- Title(参考訳): One Sizeは、すべてに適合しない:言語間の高速テキストモデルのための最適なN-gramサイズを見つける
- Authors: V\'it Novotn\'y (1) and Eniafe Festus Ayetiran (1) and D\'avid
Lupt\'ak (1) and Michal \v{S}tef\'anik (1) and Petr Sojka (1) ((1) Faculty of
Informatics Masaryk University)
- Abstract要約: 私たちはWikipediaで英語、ドイツ語、チェコ語、イタリア語のfastText言語モデルをトレーニングしています。
英語、ドイツ語、チェコ語、イタリア語の単語類似タスクのサブワードサイズを最適化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised word representation learning from large corpora is badly needed
for downstream tasks such as text classification, information retrieval, and
machine translation. The representation precision of the fastText language
models is mostly due to their use of subword information. In previous work, the
optimization of fastText subword sizes has been largely neglected, and
non-English fastText language models were trained using subword sizes optimized
for English and German.
In our work, we train English, German, Czech, and Italian fastText language
models on Wikipedia, and we optimize the subword sizes on the English, German,
Czech, and Italian word analogy tasks. We show that the optimization of subword
sizes results in a 5% improvement on the Czech word analogy task. We also show
that computationally expensive hyperparameter optimization can be replaced with
cheap $n$-gram frequency analysis: subword sizes that are the closest to
covering 3.76% of all unique subwords in a language are shown to be the optimal
fastText hyperparameters on the English, German, Czech, and Italian word
analogy tasks.
- Abstract(参考訳): テキスト分類や情報検索,機械翻訳といった下流タスクには,大規模コーパスからの教師なし語表現学習が極めて必要である。
fasttext言語モデルの表現精度は、主にサブワード情報の使用によるものである。
以前の研究では、fastTextサブワードサイズの最適化は大幅に無視され、英語とドイツ語に最適化されたサブワードサイズを使用して英語以外のfastText言語モデルが訓練された。
私たちは、Wikipediaで英語、ドイツ語、チェコ語、イタリア語の高速テキスト言語モデルを訓練し、英語、ドイツ語、チェコ語、イタリア語の単語類似タスクのサブワードサイズを最適化します。
我々は、サブワードサイズの最適化がチェコ語の類似タスクの5%の改善をもたらすことを示しています。
また、計算コストのかかるハイパーパラメータの最適化を、安価な$n$-gramの周波数分析に置き換えることも示している: 言語中のすべてのユニークなサブワードの3.76%をカバーしているサブワードサイズは、英語、ドイツ語、チェコ語、イタリア語の単語類似タスクにおける最適な高速テキストハイパーパラメータである。
関連論文リスト
- Large Vocabulary Size Improves Large Language Models [28.83786065307658]
単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。
実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。
事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
論文 参考訳(メタデータ) (2024-06-24T10:27:07Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Impact of Subword Pooling Strategy on Cross-lingual Event Detection [2.3361634876233817]
プーリング戦略は、サブワード表現を入力として、ワード全体の表現を出力する。
プール戦略の選択は、対象言語の性能に重大な影響を与える可能性があることを示す。
多様な多言語データセットにおいて、9言語にまたがる5つの異なるプール戦略を用いて分析を行う。
論文 参考訳(メタデータ) (2023-02-22T13:33:21Z) - Incorporating Context into Subword Vocabularies [3.22352610570206]
SaGeは、語彙生成フェーズでコンテキスト化されたシグナルを焼くことによって、下流での使用のためにサブワードを調整するトークンライザである。
SaGeはトークンコンテキストの凝集性を維持するために、現在の広く普及しているトークン化ツールよりも優れた仕事をしていることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:22:59Z) - Handling Compounding in Mobile Keyboard Input [7.309321705635677]
本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
論文 参考訳(メタデータ) (2022-01-17T15:28:58Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。