論文の概要: Accuracy of the Uzbek stop words detection: a case study on "School
corpus"
- arxiv url: http://arxiv.org/abs/2209.07053v1
- Date: Thu, 15 Sep 2022 05:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:41:55.429694
- Title: Accuracy of the Uzbek stop words detection: a case study on "School
corpus"
- Title(参考訳): ウズベク語停止語検出の正確性:「学校コーパス」を事例として
- Authors: Khabibulla Madatov, Shukurla Bekchanov, Jernej Vi\v{c}i\v{c}
- Abstract要約: 本稿では,自動生成を目的とした停止語リストの品質評価手法を提案する。
この手法はウズベク語の停止語のリストを自動生成してテストした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stop words are very important for information retrieval and text analysis
investigation tasks of natural language processing. Current work presents a
method to evaluate the quality of a list of stop words aimed at automatically
creating techniques. Although the method proposed in this paper was tested on
an automatically-generated list of stop words for the Uzbek language, it can
be, with some modifications, applied to similar languages either from the same
family or the ones that have an agglutinative nature. Since the Uzbek language
belongs to the family of agglutinative languages, it can be explained that the
automatic detection of stop words in the language is a more complex process
than in inflected languages. Moreover, we integrated our previous work on stop
words detection in the example of the "School corpus" by investigating how to
automatically analyse the detection of stop words in Uzbek texts. This work is
devoted to answering whether there is a good way of evaluating available stop
words for Uzbek texts, or whether it is possible to determine what part of the
Uzbek sentence contains the majority of the stop words by studying the
numerical characteristics of the probability of unique words. The results show
acceptable accuracy of the stop words lists.
- Abstract(参考訳): 停止語は自然言語処理における情報検索とテキスト解析のタスクにおいて非常に重要である。
現在の研究は、自動生成技術を目的とした停止語のリストの品質を評価する方法を提案する。
本論文で提案する手法はウズベク語の停止語を自動生成したリスト上でテストされたが、いくつかの修正を加えれば、同じ家系の類似言語や凝集性のある言語にも適用できる。
ウズベク語は凝集言語に属するため、言語における停止語の自動検出は、抑揚された言語よりも複雑なプロセスであることが説明できる。
さらに,ウズベク語テキストにおける停止語検出を自動的に解析する方法について検討し,「学校コーパス」の例として,停止語検出に関する先行研究を統合した。
本研究は、ウズベク語のテキストに利用可能な停止語を評価する良い方法があるか、あるいはウズベク語の文のどの部分が停止語の大部分を含んでいるのかを、一意な単語の確率の数値的特徴を解析することによって判断できるかどうかを問うものである。
その結果,停止語リストの許容精度が示された。
関連論文リスト
- Text Categorization Can Enhance Domain-Agnostic Stopword Extraction [3.6048839315645442]
本稿では,自然言語処理(NLP)における停止語抽出におけるテキスト分類の役割について検討する。
MasakhaNEWS, African Stopwords Project, MasakhaPOS のデータセットを利用することで, テキスト分類がドメインに依存しない停止語を, 80%以上の検出成功率で効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2024-01-24T11:52:05Z) - Design and Implementation of a Tool for Extracting Uzbek Syllables [0.0]
シラビフィケーション(Syllabification)は、言語研究、言語技術、教育、および様々な分野に応用された多用途の言語ツールである。
本稿では,ルールベースの手法や機械学習アルゴリズムを含む,ウズベク語のシラビフィケーションに対する包括的アプローチを提案する。
実験の結果,両アプローチは高い精度を示し,99%以上であった。
論文 参考訳(メタデータ) (2023-12-25T17:46:58Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - UzbekTagger: The rule-based POS tagger for Uzbek language [0.0]
本研究では,低リソースなウズベク語のための音声アノテートデータセットとタグツールを提案する。
データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。
提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するためのピボットとしても使用できる。
論文 参考訳(メタデータ) (2023-01-30T07:40:45Z) - Uzbek affix finite state machine for stemming [0.0]
提案手法は,接尾辞を用いて接尾辞を検索し,レキシコンを含まない形態素解析である。
本手法は,大量のテキストからの単語の形態解析を高速に行うとともに,語彙の保持にメモリを用いることは不要である。
論文 参考訳(メタデータ) (2022-05-20T10:46:53Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Measuring Memorization Effect in Word-Level Neural Networks Probing [0.9156064716689833]
そこで,本研究では,学習における目に見える単語と見えない単語の対称選択に基づいて,記憶効果を簡易に測定する手法を提案する。
提案手法は, 探索装置で発生した記憶量の定量化に有効であり, 適切な設定が選択可能であり, 検証結果が信頼性推定値で解釈可能である。
論文 参考訳(メタデータ) (2020-06-29T14:35:42Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。