論文の概要: Morfessor EM+Prune: Improved Subword Segmentation with Expectation
Maximization and Pruning
- arxiv url: http://arxiv.org/abs/2003.03131v1
- Date: Fri, 6 Mar 2020 10:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:20:25.000279
- Title: Morfessor EM+Prune: Improved Subword Segmentation with Expectation
Maximization and Pruning
- Title(参考訳): Morfessor EM+Prune:期待最大化とプルーニングによる単語分割の改善
- Authors: Stig-Arne Gr\"onroos, Sami Virpioja, Mikko Kurimo
- Abstract要約: 本稿では,予測最大化アルゴリズムと辞書プルーニングに基づく,ユニグラムサブワードモデルのトレーニングアルゴリズムについて検討・比較する。
提案手法は,Morfessor Baselineモデルによって定義される最適化問題に対して,よりよい解を求めることができることを示す。
改良された最適化により、言語的なゴールド標準と比較して、モルフォロジーのセグメンテーション精度が向上する。
- 参考スコア(独自算出の注目度): 14.116412358534442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data-driven segmentation of words into subword units has been used in various
natural language processing applications such as automatic speech recognition
and statistical machine translation for almost 20 years. Recently it has became
more widely adopted, as models based on deep neural networks often benefit from
subword units even for morphologically simpler languages. In this paper, we
discuss and compare training algorithms for a unigram subword model, based on
the Expectation Maximization algorithm and lexicon pruning. Using English,
Finnish, North Sami, and Turkish data sets, we show that this approach is able
to find better solutions to the optimization problem defined by the Morfessor
Baseline model than its original recursive training algorithm. The improved
optimization also leads to higher morphological segmentation accuracy when
compared to a linguistic gold standard. We publish implementations of the new
algorithms in the widely-used Morfessor software package.
- Abstract(参考訳): データによる単語のサブワード単位へのセグメンテーションは、音声認識や統計機械翻訳など、さまざまな自然言語処理アプリケーションで20年近く使われてきた。
近年、ディープニューラルネットワークに基づくモデルは、形態学的に単純な言語であっても、サブワード単位の恩恵を受けるようになった。
本稿では,期待最大化アルゴリズムとレキシコンプルーニングに基づいて,ユニグラムサブワードモデルの学習アルゴリズムを考察・比較する。
英語,フィンランド語,北サーミ語,トルコ語のデータセットを用いて,Morfessor Baselineモデルが定義した最適化問題に対する,元の再帰学習アルゴリズムよりも優れた解を求めることができることを示す。
改良された最適化により、言語的ゴールド標準と比較して、形態的セグメンテーションの精度が向上する。
我々は,新しいアルゴリズムの実装を広く使用されているMorfessorソフトウェアパッケージに公開する。
関連論文リスト
- SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Tokenization with Factorized Subword Encoding [2.538209532048867]
本稿では,VQ-VAEモデルを用いて,サブワードを離散三重項に分解する新しいトークン化手法を提案する。
その結果, この手法は, 一般的に使用されるバイトペア符号化(BPE)トークン化アルゴリズムよりも, 形態的タスクに適しており, 頑健であることが示唆された。
論文 参考訳(メタデータ) (2023-06-13T13:27:34Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Unigram-Normalized Perplexity as a Language Model Performance Measure
with Different Vocabulary Sizes [4.477547027158141]
本稿では,異なる語彙サイズで言語モデルの性能を評価するための新しい指標を提案する。
提案したユニグラム正規化パープレクシリティは、単純なユニグラムモデルから言語モデルの性能改善を実際に示す。
論文 参考訳(メタデータ) (2020-11-26T10:39:03Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Investigation of Large-Margin Softmax in Neural Language Modeling [43.51826343967195]
ニューラルネットワークモデルに大マージンを導入することで、パープレキシティが向上し、自動音声認識における単語誤り率が向上するかどうかを検討する。
パープレキシティはわずかに劣化しているものの、大きなマージンソフトマックスを持つニューラル言語モデルでは、標準ソフトマックスベースラインと同様の単語誤り率が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-20T14:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。