論文の概要: Context based lemmatizer for Polish language
- arxiv url: http://arxiv.org/abs/2207.11565v1
- Date: Sat, 23 Jul 2022 18:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:19:09.493595
- Title: Context based lemmatizer for Polish language
- Title(参考訳): ポーランド語用文脈ベース補間器
- Authors: Michal Karwatowski and Marcin Pietron
- Abstract要約: レマティゼーション(英: Lemmatization)とは、単語の屈折形をまとめて一つの項目として分析する過程である。
計算言語学において、補題化(英:lemmatisation)とは、単語の補題を決定するアルゴリズムのプロセスである。
このモデルは、言語補題化プロセスにおける最良の結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lemmatization is the process of grouping together the inflected forms of a
word so they can be analysed as a single item, identified by the word's lemma,
or dictionary form. In computational linguistics, lemmatisation is the
algorithmic process of determining the lemma of a word based on its intended
meaning. Unlike stemming, lemmatisation depends on correctly identifying the
intended part of speech and meaning of a word in a sentence, as well as within
the larger context surrounding that sentence. As a result, developing efficient
lemmatisation algorithm is the complex task. In recent years it can be observed
that deep learning models used for this task outperform other methods including
machine learning algorithms. In this paper the polish lemmatizer based on
Google T5 model is presented. The training was run with different context
lengths. The model achieves the best results for polish language lemmatisation
process.
- Abstract(参考訳): レムマティゼーション(lemmatization)とは、単語の屈折形式をグループ化して、単語の補題や辞書形式によって識別される単一の項目として分析するプロセスである。
計算言語学において、補題化(英:lemmatisation)とは、単語の補題を決定するアルゴリズムのプロセスである。
stemingとは異なり、lemmatizationは、文中の単語の意図された部分と意味を正確に識別することと、その文を取り巻くより大きな文脈の両方に依存する。
その結果、効率的な補間アルゴリズムの開発が複雑なタスクとなる。
近年、このタスクに使用されるディープラーニングモデルは、機械学習アルゴリズムを含む他の手法よりも優れていることが観察できる。
本稿では,Google T5モデルに基づく研磨補間器について述べる。
トレーニングは異なるコンテキスト長で実施された。
このモデルはポーランド語補間処理の最良の結果を得る。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - The boundaries of meaning: a case study in neural machine translation [0.0]
2016年以降、サブワードセグメンテーションアルゴリズムは言語モデリング、機械翻訳、その他のタスクに広く利用されている。
これらのアルゴリズムは、しばしば単語を「時代」、「on」、「t」、「ist」といった意味的に不透明なものに切り分ける。
論文 参考訳(メタデータ) (2022-10-02T20:26:20Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - DEIM: An effective deep encoding and interaction model for sentence
matching [0.0]
本稿では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案する。
エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、その後、アルゴリズムを用いて情報を融合する。
インタラクション層では、双方向の注意機構と自己注意機構を用いて深い意味情報を得る。
論文 参考訳(メタデータ) (2022-03-20T07:59:42Z) - Studying word order through iterative shuffling [14.530986799844873]
NLPベンチマークタスクの実行には,単語順序エンコードが不可欠であることを示す。
我々は、固定言語モデルの下で最も高い確率を持つ単語の袋を注文する、新しい効率的な手続きであるBISを使用する。
IBISのような推論手順のシャッフルが言語モデリングや制約付き生成にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-09-10T13:27:06Z) - Generalized Optimal Linear Orders [9.010643838773477]
言語の逐次構造、特に文中の単語の順序は、人間の言語処理において中心的な役割を果たす。
言語の計算モデルの設計において、デファクトのアプローチは、原文と同じ順序で命令された単語を機械に提示することである。
この研究の本質は、これが望ましいという暗黙の仮定を疑問視し、自然言語処理における語順の考慮に理論的健全性を注入することである。
論文 参考訳(メタデータ) (2021-08-13T13:10:15Z) - SLAM-Inspired Simultaneous Contextualization and Interpreting for
Incremental Conversation Sentences [0.0]
逐次文中の多文単語の文脈と解釈を動的に推定する手法を提案する。
SCAINアルゴリズムを用いることで、文脈と単語の解釈の相互依存性を逐次最適化し、新しい解釈をオンラインで得ることができる。
論文 参考訳(メタデータ) (2020-05-29T16:40:27Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Consistency of a Recurrent Language Model With Respect to Incomplete
Decoding [67.54760086239514]
逐次言語モデルから無限長のシーケンスを受信する問題について検討する。
不整合に対処する2つの対策として、トップkと核サンプリングの一貫性のある変種と、自己終端の繰り返し言語モデルを提案する。
論文 参考訳(メタデータ) (2020-02-06T19:56:15Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。