論文の概要: Kvistur 2.0: a BiLSTM Compound Splitter for Icelandic
- arxiv url: http://arxiv.org/abs/2004.07776v1
- Date: Thu, 16 Apr 2020 17:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 21:38:31.675727
- Title: Kvistur 2.0: a BiLSTM Compound Splitter for Icelandic
- Title(参考訳): Kvistur 2.0:アイスランド向けBiLSTM複合スプリッター
- Authors: J\'on Fri{\dh}rik Da{\dh}ason, David Erik Mollberg, Hrafn Loftsson,
Krist\'in Bjarnad\'ottir
- Abstract要約: アイスランド語複合語を分割するための文字ベースBiLSTMモデルを提案する。
各種トレーニングデータがモデルの性能にどのように影響するかを示す。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a character-based BiLSTM model for splitting
Icelandic compound words, and show how varying amounts of training data affects
the performance of the model. Compounding is highly productive in Icelandic,
and new compounds are constantly being created. This results in a large number
of out-of-vocabulary (OOV) words, negatively impacting the performance of many
NLP tools. Our model is trained on a dataset of 2.9 million unique word forms
and their constituent structures from the Database of Icelandic Morphology. The
model learns how to split compound words into two parts and can be used to
derive the constituent structure of any word form. Knowing the constituent
structure of a word form makes it possible to generate the optimal split for a
given task, e.g., a full split for subword tokenization, or, in the case of
part-of-speech tagging, splitting an OOV word until the largest known
morphological head is found. The model outperforms other previously published
methods when evaluated on a corpus of manually split word forms. This method
has been integrated into Kvistur, an Icelandic compound word analyzer.
- Abstract(参考訳): 本稿では,アイスランドの複合語を分割するためのキャラクタベースのbilstmモデルを提案する。
アイスランドでは化合物化は高度に生産され、新しい化合物が常に作られる。
その結果、多くの言語外単語(OOV)が生成され、多くのNLPツールのパフォーマンスに悪影響を及ぼす。
我々のモデルはアイスランド語形態データベースから290万のユニークな単語のデータセットとそれらの構成構造に基づいて訓練されている。
このモデルは、複合語を2つの部分に分割する方法を学び、任意の単語形式の構成構造を導出することができる。
単語形式の構成構造を知ることで、例えば、サブワードトークン化のための完全な分割や、音声タグ付けの場合、最も大きな形態素頭が見つかるまでOOV単語を分割するといった、与えられたタスクに対して最適な分割を生成することができる。
このモデルは、手動で分割した単語形式のコーパスで評価した場合、他の公開された手法よりも優れている。
この手法はアイスランドの複合語分析装置であるKvisturに統合されている。
関連論文リスト
- Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
具体的には、ディープモデルは、語の内部構造と表現を@textitOverriding$というメカニズムで共同でエンコードし、モルヒムの非分解性を保証する。
提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Robust and Consistent Estimation of Word Embedding for Bangla Language
by fine-tuning Word2Vec Model [1.2691047660244335]
単語ベクトルを学習するための word2vec モデルを解析し,バングラ語に最も効果的な単語埋め込みを提案する。
我々は,単語ベクトルをクラスタ化して,単語の関連性について固有の評価を行うとともに,ニュース記事の特徴として異なる単語埋め込みを用いる。
論文 参考訳(メタデータ) (2020-10-26T08:00:48Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Morphological Skip-Gram: Using morphological knowledge to improve word
representation [2.0129974477913457]
我々は,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることで,単語埋め込みを訓練する新しい手法を提案する。
結果は、FastTextと比較して、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-07-20T12:47:36Z) - Multidirectional Associative Optimization of Function-Specific Word
Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。
我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。
このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文 参考訳(メタデータ) (2020-05-11T17:07:20Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。