論文の概要: Joint Lemmatization and Morphological Tagging with LEMMING
- arxiv url: http://arxiv.org/abs/2405.18308v1
- Date: Tue, 28 May 2024 16:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:50:12.396428
- Title: Joint Lemmatization and Morphological Tagging with LEMMING
- Title(参考訳): LEMMINGによる関節補綴と形態的タグ付け
- Authors: Thomas Muller, Ryan Cotterell, Alexander Fraser, Hinrich Schütze,
- Abstract要約: 本稿では,レマタイズとタグ付けを共同でモデル化するモジュール型対数線形モデルLEMMingを提案する。
金の標準タグとレマタでアノテートされたコーパスで訓練でき、形態辞書やアナライザに依存しない。
- 参考スコア(独自算出の注目度): 127.91619168948502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LEMMING, a modular log-linear model that jointly models lemmatization and tagging and supports the integration of arbitrary global features. It is trainable on corpora annotated with gold standard tags and lemmata and does not rely on morphological dictionaries or analyzers. LEMMING sets the new state of the art in token-based statistical lemmatization on six languages; e.g., for Czech lemmatization, we reduce the error by 60%, from 4.05 to 1.58. We also give empirical evidence that jointly modeling morphological tags and lemmata is mutually beneficial.
- Abstract(参考訳): LEMMingはモジュール型対数線形モデルであり,任意のグローバル機能の統合をサポートする。
金の標準タグとレマタでアノテートされたコーパスで訓練でき、形態辞書やアナライザに依存しない。
LEMMINGは、6つの言語でトークンベースの統計補題化の最先端を新たに定義している。例えばチェコの補題化では、エラーを4.05から1.58に60%削減する。
また,形態的タグとレマタが相互に有用であることを示す実証的証拠も提示する。
関連論文リスト
- Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。
また、形態素タグセットの新しい階層も導入する。
形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文 参考訳(メタデータ) (2024-04-13T12:51:53Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Comparative Error Analysis in Neural and Finite-state Models for
Unsupervised Character-level Transduction [34.1177259741046]
2つのモデルクラスを並べて比較すると、同等のパフォーマンスを達成したとしても、異なるタイプのエラーが発生する傾向があります。
復号時における有限状態とシーケンス・ツー・シーケンスの組合せが、出力を定量的かつ質的にどう影響するかを考察する。
論文 参考訳(メタデータ) (2021-06-24T00:09:24Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - LemMED: Fast and Effective Neural Morphological Analysis with Short
Context Windows [25.71366738053197]
LemMEDは文脈形態解析のための文字レベルエンコーダデコーダである。
私たちのアプローチでは、個別の補題化とタグ付けモデルのトレーニングは必要ありません。
LemMEDは13のシステムの中で第5位にランクされ、コンテキスト化された埋め込みを用いた提出によってのみ評価される。
論文 参考訳(メタデータ) (2020-10-21T12:08:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z) - A Discriminative Latent-Variable Model for Bilingual Lexicon Induction [100.76471407472599]
本稿では,バイリンガルレキシコン誘導のための新しい識別潜在変数モデルを提案する。
我々のモデルは、Haghighi et al. (2008) 以前の二部語マッチング辞書と表現に基づくアプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2018-08-28T14:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。