論文の概要: Urdu Morphology, Orthography and Lexicon Extraction
- arxiv url: http://arxiv.org/abs/2204.03071v1
- Date: Wed, 6 Apr 2022 20:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:38:45.948482
- Title: Urdu Morphology, Orthography and Lexicon Extraction
- Title(参考訳): ウルドゥの形態・正書法・語彙抽出
- Authors: Muhammad Humayoun and Harald Hammarstr\"om and Aarne Ranta
- Abstract要約: 本稿では,Urdu言語の実装をソフトウェアAPIとして記述する。
我々は、正書法、形態学、辞書の抽出を扱う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Urdu is a challenging language because of, first, its Perso-Arabic script and
second, its morphological system having inherent grammatical forms and
vocabulary of Arabic, Persian and the native languages of South Asia. This
paper describes an implementation of the Urdu language as a software API, and
we deal with orthography, morphology and the extraction of the lexicon. The
morphology is implemented in a toolkit called Functional Morphology (Forsberg &
Ranta, 2004), which is based on the idea of dealing grammars as software
libraries. Therefore this implementation could be reused in applications such
as intelligent search of keywords, language training and infrastructure for
syntax. We also present an implementation of a small part of Urdu syntax to
demonstrate this reusability.
- Abstract(参考訳): ウルドゥ語はペルソ・アラビア文字と第二に、その形態学的体系はアラビア語、ペルシア語、南アジアの原語の固有の文法的形態と語彙を持っているため、挑戦的な言語である。
本稿では, urdu言語をソフトウェアapiとして実装し, 正書法, 形態, 語彙抽出を扱う。
この形態はFunctional Morphology (Forsberg & Ranta, 2004)と呼ばれるツールキットで実装され、文法をソフトウェアライブラリとして扱うという考え方に基づいている。
したがって、この実装は、キーワードのインテリジェント検索、言語訓練、構文の基盤といったアプリケーションで再利用できる。
また、この再利用性を示すために、urdu構文の小さな部分の実装も提示する。
関連論文リスト
- MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Morphology and Syntax of the Tamil Language [0.0]
この論文は、形態学的および構文学的特徴の観点から、タミルの複雑さと豊かさを強調している。
規則に基づく形態素解析の累積生成器として証明され,すでにタミルの計算文法が開発されている。
論文 参考訳(メタデータ) (2024-01-16T13:52:25Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - PALI: A Language Identification Benchmark for Perso-Arabic Scripts [30.99179028187252]
本稿ではペルソ・アラビア文字を用いた言語検出の課題について述べる。
文を言語に分類するために、教師付きテクニックのセットを使用します。
また,しばしば混同される言語群を対象とする階層モデルを提案する。
論文 参考訳(メタデータ) (2023-04-03T19:40:14Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - Morpheme Boundary Detection & Grammatical Feature Prediction for
Gujarati : Dataset & Model [0.0]
We have used a Bi-Directional LSTM based approach to perform morpheme boundary detection and grammatical feature tagging。
これは、文法的特徴タグ付けと形態素境界検出タスクの両方を実行するGujarati言語のための最初のデータセットおよび形態素解析モデルである。
論文 参考訳(メタデータ) (2021-12-18T06:58:36Z) - Co-occurrences using Fasttext embeddings for word similarity tasks in
Urdu [0.0]
本稿では,Urduのコーパスを構築し,複数のソースからデータを抽出・統合する。
fasttext埋め込みとN-Gramsモデルを変更して、構築されたコーパスでトレーニングできるようにします。
これらのトレーニング済み埋め込みを単語の類似性タスクに使用し、その結果を既存の技術と比較しました。
論文 参考訳(メタデータ) (2021-02-22T12:56:26Z) - HinFlair: pre-trained contextual string embeddings for pos tagging and
text classification in the Hindi language [0.0]
HinFlairは、巨大な単言語Hindiコーパスで事前訓練された言語表現モデル(コンテキスト文字列埋め込み)である。
結果は、HinFlairが、テキスト分類やposタグ付けといった下流タスクのために、既存の最先端の公開トレーニング済みの埋め込みよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T09:23:35Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。