論文の概要: A Nepali Rule Based Stemmer and its performance on different NLP
applications
- arxiv url: http://arxiv.org/abs/2002.09901v1
- Date: Sun, 23 Feb 2020 13:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:45:13.808383
- Title: A Nepali Rule Based Stemmer and its performance on different NLP
applications
- Title(参考訳): ネパールルールに基づくStemmerとその異なるNLPアプリケーション上での性能
- Authors: Pravesh Koirala and Aman Shakya
- Abstract要約: 本研究はネパール語テキストのためのルールベースステムマーの作成に焦点をあてる。
ネパール語の文法において2種類の接尾辞を識別し、それらを別々に取り除く接尾辞切りシステムである。
本研究は, 例外語識別, 形態素正規化, 単語変換など, 造語性能を向上させる技術に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stemming is an integral part of Natural Language Processing (NLP). It's a
preprocessing step in almost every NLP application. Arguably, the most
important usage of stemming is in Information Retrieval (IR). While there are
lots of work done on stemming in languages like English, Nepali stemming has
only a few works. This study focuses on creating a Rule Based stemmer for
Nepali text. Specifically, it is an affix stripping system that identifies two
different class of suffixes in Nepali grammar and strips them separately. Only
a single negativity prefix (Na) is identified and stripped. This study focuses
on a number of techniques like exception word identification, morphological
normalization and word transformation to increase stemming performance. The
stemmer is tested intrinsically using Paice's method and extrinsically on a
basic tf-idf based IR system and an elementary news topic classifier using
Multinomial Naive Bayes Classifier. The difference in performance of these
systems with and without using the stemmer is analysed.
- Abstract(参考訳): ステミングは自然言語処理(NLP)の不可欠な部分である。
これはほとんどすべてのnlpアプリケーションの前処理ステップです。
ステミングの最も重要な用途は、情報検索(Information Retrieval, IR)である。
英語などの言語でスリーミングを行う作業は数多く行われているが、ネパール語スリーミングはごくわずかしかない。
本研究はネパール語テキストのためのルールベースステムマーの作成に焦点を当てる。
具体的には、ネパール語文法の2つの異なる接尾辞を識別し、それらを分離した接尾辞ストリッピングシステムである。
単一のネガティビティプレフィックス(na)のみが識別され、削除される。
本研究は, 例外語識別, 形態素正規化, 単語変換など, 造語性能の向上など, 数多くの技術に焦点をあてる。
本発明のstemmerはpaice法を用いて本質的にテストされ、基本tf-idfベースのirシステムと、多項ナイーブベイズ分類器を用いた初歩的な話題分類器に拡張されている。
ステマーを使わない場合と使わない場合のシステムの性能の違いを分析した。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
サブワードが言語モデルの理解能力にどのように影響するかの研究はほとんどなく、少数の言語に限られている。
ネパールの比較的小さな言語モデルを事前訓練するために、6つの異なるトークン化スキームを使用し、下流のタスクを微調整するために学んだ表現を使用しました。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Effect of Post-processing on Contextualized Word Representations [20.856802441794162]
静的埋め込みの事後処理は、語彙レベルとシーケンスレベルのタスクの両方のパフォーマンスを改善するために示されてきた。
事前学習した言語モデルの異なる層から得られた文脈的埋め込みに対する後処理の有用性を疑問視する。
論文 参考訳(メタデータ) (2021-04-15T13:40:42Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。