論文の概要: Part of speech and gramset tagging algorithms for unknown words based on
morphological dictionaries of the Veps and Karelian languages
- arxiv url: http://arxiv.org/abs/2103.11859v1
- Date: Mon, 22 Mar 2021 13:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 23:42:15.884397
- Title: Part of speech and gramset tagging algorithms for unknown words based on
morphological dictionaries of the Veps and Karelian languages
- Title(参考訳): ベップス語とカレリア語の形態辞書に基づく未知語に対する音声・文法タグ付けアルゴリズムの一部
- Authors: Andrew Krizhanovsky, Natalia Krizhanovsky and Irina Novak
- Abstract要約: 単語に音声タグの一部を割り当てるアルゴリズムと、単語に文法的特性を提示する。
これらのアルゴリズムの精度を評価し,比較した。
95.3%のヴェプシアン語と90.7%のカレリア語がアルゴリズムによって正しい文法を割り当てられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This research devoted to the low-resource Veps and Karelian languages.
Algorithms for assigning part of speech tags to words and grammatical
properties to words are presented in the article. These algorithms use our
morphological dictionaries, where the lemma, part of speech and a set of
grammatical features (gramset) are known for each word form. The algorithms are
based on the analogy hypothesis that words with the same suffixes are likely to
have the same inflectional models, the same part of speech and gramset. The
accuracy of these algorithms were evaluated and compared. 313 thousand Vepsian
and 66 thousand Karelian words were used to verify the accuracy of these
algorithms. The special functions were designed to assess the quality of
results of the developed algorithms. 92.4% of Vepsian words and 86.8% of
Karelian words were assigned a correct part of speech by the developed
algorithm. 95.3% of Vepsian words and 90.7% of Karelian words were assigned a
correct gramset by our algorithm. Morphological and semantic tagging of texts,
which are closely related and inseparable in our corpus processes, are
described in the paper.
- Abstract(参考訳): この研究は低資源のヴェプス語とカレリア語に向けられた。
本論文では、音声タグの一部を単語に割り当てるアルゴリズムと、単語に文法的性質を示す。
これらのアルゴリズムは形態的辞書を用いており、各単語形式には補題、音声の一部、文法的特徴(グラム)が知られている。
このアルゴリズムは、同じ接尾辞を持つ単語が同じ屈折モデルを持ち、スピーチとグラムセットの同じ部分を持つ可能性が高いという類似仮説に基づいている。
これらのアルゴリズムの精度を評価し,比較した。
313万のヴェプシアン語と66万のカレリア語を用いて、これらのアルゴリズムの精度を検証した。
特殊関数は、開発したアルゴリズムの結果の質を評価するために設計された。
vepsian の92.4%、karelian の86.8%は、開発されたアルゴリズムによって正しい音声の部分を割り当てられた。
ベプス語の95.3%、カレリア語の90.7%は、アルゴリズムによって正しい文法が割り当てられた。
本論文では, コーパスプロセスに密接に関連し, 分離不能なテキストの形態的, 意味的タグ付けについて述べる。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - CNN-based Spoken Term Detection and Localization without Dynamic
Programming [16.322420712725716]
提案アルゴリズムは、音声信号の様々な部分の単語埋め込みを予測することにより、ある単語が所定の音声信号内で発話されたかどうかを推定する。
アルゴリズムは、ターゲット項のすべての可能な位置を同時に予測し、最適な検索のために動的プログラミングを必要としません。
論文 参考訳(メタデータ) (2021-03-07T14:50:58Z) - A Novel Word Sense Disambiguation Approach Using WordNet Knowledge Graph [0.0]
本稿では,SCSMM (Sequential Contextual Likeity Matrix multiplication) という知識に基づく単語感覚解読アルゴリズムを提案する。
SCSMMアルゴリズムは、セマンティックな類似性、知識、文書コンテキストを組み合わせて、それぞれローカルコンテキストのメリットを利用する。
提案されたアルゴリズムは、金の標準データセットの名詞を曖昧にするときに他のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-01-08T06:47:32Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Phonotactic Complexity and its Trade-offs [73.10961848460613]
この単純な測度により、言語間のエントロピーを比較することができる。
音素あたりのビット数と単語の平均長との間には-0.74の非常に強い負の相関関係を示す。
論文 参考訳(メタデータ) (2020-05-07T21:36:59Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。