論文の概要: Morphological Disambiguation of South S\'ami with FSTs and Neural
Networks
- arxiv url: http://arxiv.org/abs/2004.14062v1
- Date: Wed, 29 Apr 2020 10:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:43:43.787434
- Title: Morphological Disambiguation of South S\'ami with FSTs and Neural
Networks
- Title(参考訳): FSTとニューラルネットワークによる南サミの形態的曖昧化
- Authors: Mika H\"am\"al\"ainen, Linda Wiechetek
- Abstract要約: 本稿では,絶滅危惧言語である南サミに対する形態的曖昧化を行う手法を提案する。
本手法は,FSTに基づく形態素解析装置を用いて,文中の各単語に対する不明瞭な形態素読影集合を生成する。
これらの読みは、関連するNorth S'ami UD Treebankと合成生成されたSouth S'amiデータに基づいて訓練されたBi-RNNモデルとあいまいである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method for conducting morphological disambiguation for South
S\'ami, which is an endangered language. Our method uses an FST-based
morphological analyzer to produce an ambiguous set of morphological readings
for each word in a sentence. These readings are disambiguated with a Bi-RNN
model trained on the related North S\'ami UD Treebank and some synthetically
generated South S\'ami data. The disambiguation is done on the level of
morphological tags ignoring word forms and lemmas; this makes it possible to
use North S\'ami training data for South S\'ami without the need for a
bilingual dictionary or aligned word embeddings. Our approach requires only
minimal resources for South S\'ami, which makes it usable and applicable in the
contexts of any other endangered language as well.
- Abstract(参考訳): 本稿では,絶滅危惧言語である南サミに対する形態的曖昧化を行う手法を提案する。
本手法は,FSTに基づく形態素解析装置を用いて,文中の各単語に対する不明瞭な形態素読影集合を生成する。
これらの読みは、関連するNorth S\'ami UD Treebankと合成生成されたSouth S\'amiデータに基づいて訓練されたBi-RNNモデルで曖昧である。
この曖昧さの解消は、単語の形や補題を無視した形態的タグのレベルに基づいて行われ、二言語辞書や単語埋め込みを必要とせずに、南スナミの訓練データを使用することができる。
我々のアプローチでは、South S\'amiにとって最小限のリソースしか必要とせず、他の絶滅危惧言語でも使用でき、適用できます。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Lattice-preserving $\mathcal{ALC}$ ontology embeddings with saturation [50.05281461410368]
OWL表現の埋め込みを生成するため,順序保存型埋め込み法を提案する。
本手法は,いくつかの知識ベース完了タスクにおいて,最先端の組込み手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-11T22:27:51Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - Grammar-Based Grounded Lexicon Learning [68.59500589319023]
G2L2は、構成的および基礎的な言語表現を学ぶための語彙主義的なアプローチである。
G2L2の中核には語彙エントリの集まりがあり、各単語を構文型とニューロシンボリックセマンティックプログラムにマッピングする。
G2L2は、少量のデータから新しい単語合成へと一般化することができる。
論文 参考訳(メタデータ) (2022-02-17T18:19:53Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - Neural Compound-Word (Sandhi) Generation and Splitting in Sanskrit
Language [0.8258451067861933]
本論文では,サンスクリット語における単語合成の過程と分割に対するニューラルネットワークに基づくアプローチについて述べる。
本稿では,近代的な深層学習手法を用いて,問題をシーケンス予測タスクとして定式化する方法を提案する。
最初の完全データ駆動技術である我々のモデルは、複数の標準データセット上の既存の手法よりも精度が良いことを実証する。
論文 参考訳(メタデータ) (2020-10-24T18:02:40Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - Neural disambiguation of lemma and part of speech in morphologically
rich languages [0.6346772579930928]
形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にすることの問題点を考察する。
そこで本稿では, テキストの未注釈コーパスと形態素解析を用いて, 文脈におけるあいまいな単語の曖昧さを解消する手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T21:48:52Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。