論文の概要: A Finite State Transducer Based Morphological Analyzer of Maithili
Language
- arxiv url: http://arxiv.org/abs/2003.00234v1
- Date: Sat, 29 Feb 2020 11:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:42:41.502513
- Title: A Finite State Transducer Based Morphological Analyzer of Maithili
Language
- Title(参考訳): 有限状態変換器を用いたmaithili言語の形態素解析
- Authors: Raza Rahi, Sumant Pushp, Arif Khan, Smriti Kumar Sinha
- Abstract要約: 有限状態トランスデューサをベースとしたインドにおける資源不足言語であるMaithiliに対する屈折形態解析器を提案する。
マイティリ語(Maithili)は、インド・ビハール州東部と北部で話されるインド・アーリア東部の言語で、ネパールのタライ(Tarai)として知られている。
- 参考スコア(独自算出の注目度): 2.752817022620644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morphological analyzers are the essential milestones for many linguistic
applications like; machine translation, word sense disambiguation, spells
checkers, and search engines etc. Therefore, development of an effective
morphological analyzer has a greater impact on the computational recognition of
a language. In this paper, we present a finite state transducer based
inflectional morphological analyzer for a resource poor language of India,
known as Maithili. Maithili is an eastern Indo-Aryan language spoken in the
eastern and northern regions of Bihar in India and the southeastern plains,
known as tarai of Nepal. This work can be recognized as the first work towards
the computational development of Maithili which may attract researchers around
the country to up-rise the language to establish in computational world.
- Abstract(参考訳): 形態解析は、機械翻訳、単語感覚の曖昧さ、スペルチェッカー、検索エンジンなど、多くの言語アプリケーションにとって重要なマイルストーンである。
したがって, 有効な形態素解析器の開発は, 言語の認識により大きな影響を及ぼす。
本稿では,インドの資源不足言語であるmaithiliに対して,有限状態トランスデューサに基づくインフレクション形態素解析器を提案する。
マイティリ語(maithili)はインドビハールの東部と北部、ネパールのタライ(tarai)として知られる南東平原で話されているインド・アーリア語族の言語である。
この研究は、Maithiliの計算開発に向けた最初の成果として認識され、世界中の研究者を惹きつけ、この言語をコンピュータの世界に定着させるかもしれない。
関連論文リスト
- Morphology and Syntax of the Tamil Language [0.0]
この論文は、形態学的および構文学的特徴の観点から、タミルの複雑さと豊かさを強調している。
規則に基づく形態素解析の累積生成器として証明され,すでにタミルの計算文法が開発されている。
論文 参考訳(メタデータ) (2024-01-16T13:52:25Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Linguistic Analysis using Paninian System of Sounds and Finite State Machines [0.0]
音声言語の研究は、音韻学、形態学、文法を含む。
言語は根語、屈折言語、幹語に分類される。
これらすべての要因は、共通性と類似性を持つ語彙の形成と、言語間での区別と微妙な相違につながります。
論文 参考訳(メタデータ) (2023-01-29T15:22:10Z) - Urdu Morphology, Orthography and Lexicon Extraction [0.0]
本稿では,Urdu言語の実装をソフトウェアAPIとして記述する。
我々は、正書法、形態学、辞書の抽出を扱う。
論文 参考訳(メタデータ) (2022-04-06T20:14:01Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Towards Finite-State Morphology of Kurdish [0.76146285961466]
クルド語(ソルニ方言)の形態は、計算学的観点から記述される。
単語の生成と解析のために有限状態変換器に変換される形態素規則を抽出する。
論文 参考訳(メタデータ) (2020-05-21T13:55:07Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Unsupervised Separation of Native and Loanwords for Malayalam and Telugu [3.4925763160992402]
ある言語からの単語は翻訳なしで別の言語で採用され、後者の言語で書かれたテキストで文字化された形で現れる。
この現象は、多くの単語が英語から借用されているインドの言語で特に広まっている。
本稿では,アグリニティブ・ドラヴィダ語からの単語の大規模なデータセットから,借用語を自動的かつ教師なしの方法で識別するタスクに対処する。
論文 参考訳(メタデータ) (2020-02-12T04:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。