論文の概要: BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer
- arxiv url: http://arxiv.org/abs/2311.03078v1
- Date: Mon, 6 Nov 2023 13:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:24:09.206002
- Title: BanLemma: A Word Formation Dependent Rule and Dictionary Based Bangla
Lemmatizer
- Title(参考訳): BanLemma: 単語生成依存ルールと辞書ベースのBangla Lemmatizer
- Authors: Sadia Afrin, Md. Shahad Mahmud Chowdhury, Md. Ekramul Islam, Faisal
Ahamed Khan, Labib Imam Chowdhury, MD. Motahar Mahtab, Nazifa Nuha Chowdhury,
Massud Forkan, Neelima Kundu, Hakim Arif, Mohammad Mamun Or Rashid, Mohammad
Ruhul Amin, Nabeel Mohammed
- Abstract要約: 本稿では, 文法化のための言語規則を提案し, 辞書と組み合わせて, バングラの補題を設計する。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
補綴器は、手動で注釈付けされたテストデータセットに対して、トレーニングによってテストすると96.36%の精度を達成する。
- 参考スコア(独自算出の注目度): 3.1742013359102175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lemmatization holds significance in both natural language processing (NLP)
and linguistics, as it effectively decreases data density and aids in
comprehending contextual meaning. However, due to the highly inflected nature
and morphological richness, lemmatization in Bangla text poses a complex
challenge. In this study, we propose linguistic rules for lemmatization and
utilize a dictionary along with the rules to design a lemmatizer specifically
for Bangla. Our system aims to lemmatize words based on their parts of speech
class within a given sentence. Unlike previous rule-based approaches, we
analyzed the suffix marker occurrence according to the morpho-syntactic values
and then utilized sequences of suffix markers instead of entire suffixes. To
develop our rules, we analyze a large corpus of Bangla text from various
domains, sources, and time periods to observe the word formation of inflected
words. The lemmatizer achieves an accuracy of 96.36% when tested against a
manually annotated test dataset by trained linguists and demonstrates
competitive performance on three previously published Bangla lemmatization
datasets. We are making the code and datasets publicly available at
https://github.com/eblict-gigatech/BanLemma in order to contribute to the
further advancement of Bangla NLP.
- Abstract(参考訳): 文法化は自然言語処理(NLP)と言語学の両方において重要であり、データ密度を効果的に減少させ、文脈意味の理解を助ける。
しかし、非常に簡素な性質と形態学的豊かさのため、バングラ語テキストの補題化は複雑な課題となっている。
本研究では,バングラ語に特化して補題化のための言語規則を提案し,その規則とともに辞書を用いて補題化を行う。
本システムの目的は,ある文中の音声クラスの部分に基づいて,単語を補足することである。
従来のルールベースアプローチとは異なり,モーフォシンタティック値に従って接尾辞マーカの発生を分析し,接尾辞全体ではなく接尾辞マーカのシーケンスを用いた。
本ルールを整備するために,様々な領域,資料,時間からバングラ語テキストの大きなコーパスを分析し,語句の単語形成を観察した。
このレンマタイザーは、訓練された言語学者による手動の注釈付きテストデータセットに対して96.36%の精度を達成し、以前に公開された3つのバングラ・レンマタイズデータセット上での競合性能を示す。
Bangla NLPのさらなる進歩に貢献するために、コードとデータセットをhttps://github.com/eblict-gigatech/BanLemmaで公開しています。
関連論文リスト
- BanTH: A Multi-label Hate Speech Detection Dataset for Transliterated Bangla [0.0]
我々は,37.3kサンプルからなるバングラヘイト音声データセットであるBanTHを紹介する。
サンプルはYouTubeコメントからソースされ、各インスタンスに1つ以上のターゲットグループをラベル付けする。
実験により、さらに事前訓練されたエンコーダが、BanTHデータセット上で最先端のパフォーマンスを実現していることが明らかになった。
論文 参考訳(メタデータ) (2024-10-17T07:15:15Z) - Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Suffix Retrieval-Augmented Language Modeling [1.8710230264817358]
因果語モデリング(LM)は単語履歴を用いて次の単語を予測する。
一方,BERTは文中の双方向の単語情報を用いて,マスキング位置での単語の予測を行う。
本稿では,双方向の文脈効果を自己回帰的にシミュレートする新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-11-06T07:53:19Z) - Word Order Does Matter (And Shuffled Language Models Know It) [9.990431777927421]
近年の研究では、ランダムに置換された文に対して事前訓練および/または微調整された言語モデルがGLUE上での競合性能を示すことが示されている。
シャッフルテキストエンコードから得られた位置埋め込みについて検討し、これらのモデルが元の自然主義的な単語順序に関する情報を保持することを示す。
論文 参考訳(メタデータ) (2022-03-21T14:10:15Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。