論文の概要: Automatic Extraction of Bengali Root Verbs using Paninian Grammar
- arxiv url: http://arxiv.org/abs/2004.00089v1
- Date: Tue, 31 Mar 2020 20:22:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:55:58.101225
- Title: Automatic Extraction of Bengali Root Verbs using Paninian Grammar
- Title(参考訳): パニニア文法を用いたベンガル語根動詞の自動抽出
- Authors: Arijit Das, Tapas Halder and Diganta Saha
- Abstract要約: 提案システムは,動詞の時制,人格,形態的インフレクションに基づいて,その根形を見つけるために開発された。
出力の精度は98%に達し、言語専門家によって検証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this research work, we have proposed an algorithm based on supervised
learning methodology to extract the root forms of the Bengali verbs using the
grammatical rules proposed by Panini [1] in Ashtadhyayi. This methodology can
be applied for the languages which are derived from Sanskrit. The proposed
system has been developed based on tense, person and morphological inflections
of the verbs to find their root forms. The work has been executed in two
phases: first, the surface level forms or inflected forms of the verbs have
been classified into a certain number of groups of similar tense and person.
For this task, a standard pattern, available in Bengali language has been used.
Next, a set of rules have been applied to extract the root form from the
surface level forms of a verb. The system has been tested on 10000 verbs
collected from the Bengali text corpus developed in the TDIL project of the
Govt. of India. The accuracy of the output has been achieved 98% which is
verified by a linguistic expert. Root verb identification is a key step in
semantic searching, multi-sentence search query processing, understanding the
meaning of a language, disambiguation of word sense, classification of the
sentences etc.
- Abstract(参考訳): 本研究では,ashtadhyayi で panini [1] が提案した文法規則を用いてベンガル動詞の根形を抽出するための教師付き学習手法に基づくアルゴリズムを提案する。
この方法論はサンスクリットから派生した言語に適用することができる。
提案手法は, 動詞の時制, 人格, 形態的変形に基づき, 根形を求めるために開発された。
第一に、動詞の表面的な形や屈折形は、類似の時制と人格の一定数のグループに分類されている。
このタスクでは、Bengali言語で利用可能な標準パターンが使用されている。
次に、動詞の表面レベル形式から根形を抽出するために一連の規則が適用されている。
このシステムは、govtのtdilプロジェクトで開発されたbengaliテキストコーパスから収集された10000の動詞でテストされている。
インド出身。
出力の精度は98%に達し、言語専門家によって検証されている。
ルート動詞の識別は、意味探索、多文検索クエリ処理、言語の意味の理解、単語感覚の曖昧さ、文の分類などにおける重要なステップである。
関連論文リスト
- Semantically Cohesive Word Grouping in Indian Languages [18.524219186230713]
インドの言語は屈折的かつ凝集的であり、通常節なしの語順に従う。
主要なインド諸言語にまたがる文の構造は、その依存関係解析木が考慮されるときに類似している。
本稿では,インド語の文の計算処理や言語処理において,単語グループ化が重要な前処理ステップとなることを提案する。
論文 参考訳(メタデータ) (2025-01-07T18:46:17Z) - BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer [3.1742013359102175]
本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
論文 参考訳(メタデータ) (2023-11-06T13:02:07Z) - Teacher Perception of Automatically Extracted Grammar Concepts for L2
Language Learning [66.79173000135717]
本研究は、カンナダ語とマラティ語という2つのインドの言語教育に適用する。
我々は、形態素構文(単語順、一致、ケースマーキング、または単語形成の学習)と意味論(語彙の学習)に関する疑問に答える自然なテキストコーパスから記述を抽出する。
我々は,北米の学校から言語教育者の助けを借りて手作業による評価を行い,教材が授業の準備や学習者評価に利用できる可能性を見出した。
論文 参考訳(メタデータ) (2023-10-27T18:17:29Z) - Plagiarism Detection in the Bengali Language: A Text Similarity-Based
Approach [0.866842899233181]
ベンガル語はバングラデシュで最も広く話されている言語であり、インドで2番目に話されている言語である。
インド国立デジタル図書館からベンガル文学の本を収集し,そのテキストを包括的に抽出し,コーパスを構築した。
OCRを用いたテキスト抽出では,72.10 %~79.89 %の平均精度が得られた。
我々はエンドユーザー向けのWebアプリケーションを構築し、ベンガル文字のプラジャリズム検出に成功しました。
論文 参考訳(メタデータ) (2022-03-25T03:11:00Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Language Identification of Devanagari Poems [0.0]
本稿では,詩解析タスクのための詩の自動言語識別手法を提案する。
インドのデヴァナガリ語を母語とする10の言語からなる。
Angika, Awadhi, Braj, Bhojpuri, Chhattisgarhi, Garhwali, Haryanvi, Hindi, Magahi, Maithili。
論文 参考訳(メタデータ) (2020-12-30T03:36:18Z) - Method of noun phrase detection in Ukrainian texts [0.0]
ウクライナ語の文中の名詞句の探索は、まだ初期段階にある。
ウクライナ語文における名詞句検出の複雑な方法として、ユニバーサル依存手段と名前付き一致認識モデルが提案されている。
論文 参考訳(メタデータ) (2020-10-22T09:20:24Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。