論文の概要: Morfessor EM+Prune: Improved Subword Segmentation with Expectation
Maximization and Pruning
- arxiv url: http://arxiv.org/abs/2003.03131v1
- Date: Fri, 6 Mar 2020 10:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:20:25.000279
- Title: Morfessor EM+Prune: Improved Subword Segmentation with Expectation
Maximization and Pruning
- Title(参考訳): Morfessor EM+Prune:期待最大化とプルーニングによる単語分割の改善
- Authors: Stig-Arne Gr\"onroos, Sami Virpioja, Mikko Kurimo
- Abstract要約: 本稿では,予測最大化アルゴリズムと辞書プルーニングに基づく,ユニグラムサブワードモデルのトレーニングアルゴリズムについて検討・比較する。
提案手法は,Morfessor Baselineモデルによって定義される最適化問題に対して,よりよい解を求めることができることを示す。
改良された最適化により、言語的なゴールド標準と比較して、モルフォロジーのセグメンテーション精度が向上する。
- 参考スコア(独自算出の注目度): 14.116412358534442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data-driven segmentation of words into subword units has been used in various
natural language processing applications such as automatic speech recognition
and statistical machine translation for almost 20 years. Recently it has became
more widely adopted, as models based on deep neural networks often benefit from
subword units even for morphologically simpler languages. In this paper, we
discuss and compare training algorithms for a unigram subword model, based on
the Expectation Maximization algorithm and lexicon pruning. Using English,
Finnish, North Sami, and Turkish data sets, we show that this approach is able
to find better solutions to the optimization problem defined by the Morfessor
Baseline model than its original recursive training algorithm. The improved
optimization also leads to higher morphological segmentation accuracy when
compared to a linguistic gold standard. We publish implementations of the new
algorithms in the widely-used Morfessor software package.
- Abstract(参考訳): データによる単語のサブワード単位へのセグメンテーションは、音声認識や統計機械翻訳など、さまざまな自然言語処理アプリケーションで20年近く使われてきた。
近年、ディープニューラルネットワークに基づくモデルは、形態学的に単純な言語であっても、サブワード単位の恩恵を受けるようになった。
本稿では,期待最大化アルゴリズムとレキシコンプルーニングに基づいて,ユニグラムサブワードモデルの学習アルゴリズムを考察・比較する。
英語,フィンランド語,北サーミ語,トルコ語のデータセットを用いて,Morfessor Baselineモデルが定義した最適化問題に対する,元の再帰学習アルゴリズムよりも優れた解を求めることができることを示す。
改良された最適化により、言語的ゴールド標準と比較して、形態的セグメンテーションの精度が向上する。
我々は,新しいアルゴリズムの実装を広く使用されているMorfessorソフトウェアパッケージに公開する。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。