論文の概要: Colloquial Persian POS (CPPOS) Corpus: A Novel Corpus for Colloquial
Persian Part of Speech Tagging
- arxiv url: http://arxiv.org/abs/2310.00572v1
- Date: Sun, 1 Oct 2023 05:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:31:40.161780
- Title: Colloquial Persian POS (CPPOS) Corpus: A Novel Corpus for Colloquial
Persian Part of Speech Tagging
- Title(参考訳): Colloquial Persian POS (CPPOS: Colloquial Persian POS) Corpus: A novel Corpus for Colloquial Persian part of Speech Tagging (英語)
- Authors: Leyla Rabiei, Farzaneh Rahmani, Mohammad Khansari, Zeinab Rajabi,
Moein Salimi
- Abstract要約: 本稿では,新しいコーパス "Colloquial Persian POS" (CPPOS) について紹介する。
コーパスには、Telegram、Twitter、Instagramで政治的、社会的、商業などの様々なドメインから収集された公式テキストと非公式テキストが含まれている。
- 参考スコア(独自算出の注目度): 0.9843385481559193
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Introduction: Part-of-Speech (POS) Tagging, the process of classifying words
into their respective parts of speech (e.g., verb or noun), is essential in
various natural language processing applications. POS tagging is a crucial
preprocessing task for applications like machine translation, question
answering, sentiment analysis, etc. However, existing corpora for POS tagging
in Persian mainly consist of formal texts, such as daily news and newspapers.
As a result, smart POS tools, machine learning models, and deep learning models
trained on these corpora may not perform optimally for processing colloquial
text in social network analysis. Method: This paper introduces a novel corpus,
"Colloquial Persian POS" (CPPOS), specifically designed to support colloquial
Persian text. The corpus includes formal and informal text collected from
various domains such as political, social, and commercial on Telegram, Twitter,
and Instagram more than 520K labeled tokens. After collecting posts from these
social platforms for one year, special preprocessing steps were conducted,
including normalization, sentence tokenizing, and word tokenizing for social
text. The tokens and sentences were then manually annotated and verified by a
team of linguistic experts. This study also defines a POS tagging guideline for
annotating the data and conducting the annotation process. Results: To evaluate
the quality of CPPOS, various deep learning models, such as the RNN family,
were trained using the constructed corpus. A comparison with another well-known
Persian POS corpus named "Bijankhan" and the Persian Hazm POS tool trained on
Bijankhan revealed that our model trained on CPPOS outperforms them. With the
new corpus and the BiLSTM deep neural model, we achieved a 14% improvement over
the previous dataset.
- Abstract(参考訳): 序文: Part-of-Speech (POS) Tagging, 単語をそれぞれの部分(動詞や名詞など)に分類するプロセスは、様々な自然言語処理アプリケーションにおいて不可欠である。
POSタグ付けは、機械翻訳、質問応答、感情分析など、アプリケーションにとって重要な前処理タスクである。
しかし、ペルシアのPOSタグ付けのための既存のコーパスは、主に日刊紙や新聞などの形式的なテキストで構成されている。
その結果、これらのコーパスで訓練されたスマートPOSツール、機械学習モデル、ディープラーニングモデルは、ソーシャルネットワーク分析における口語テキストの処理に最適ではない。
方法:本論文では,新しいコーパス "Colloquial Persian POS" (CPPOS) について紹介する。
コーパスには、telegram、twitter、instagramで520k以上のラベル付きトークンで、政治、社会、商業などの様々なドメインから収集された形式的および非公式のテキストが含まれている。
これらのソーシャルプラットフォームからの投稿を1年間収集した後、正規化、文のトークン化、ソーシャルテキストの単語トークン化など、特別な前処理が実施された。
トークンと文は手動で注釈付けされ、言語の専門家チームによって検証された。
本研究は、データの注釈付けとアノテーション処理を行うPOSタグ付けガイドラインも定義している。
結果: CPPOSの品質を評価するため, 構築したコーパスを用いて, RNNファミリーなどの様々なディープラーニングモデルを訓練した。
有名なペルシアのPOSコーパスである"Bijankhan"と、BijankhanでトレーニングされたペルシアのHazm POSツールと比較すると、CPPOSでトレーニングしたモデルの方がパフォーマンスが優れています。
新しいコーパスとBiLSTMディープニューラルモデルにより、以前のデータセットよりも14%改善しました。
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Joint Khmer Word Segmentation and Part-of-Speech Tagging Using Deep
Learning [0.0]
単一深層学習モデルを用いた共同ワードセグメンテーションとPOSタグ付け手法を提案する。
提案したモデルは、Khmer POSデータセットを使用してトレーニングされ、テストされた。
検証の結果、ジョイントモデルの性能は従来の2段階POSタグングと同等であることが示唆された。
論文 参考訳(メタデータ) (2021-03-31T04:26:54Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - Machine Learning Approaches for Amharic Parts-of-speech Tagging [0.0]
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
論文 参考訳(メタデータ) (2020-01-10T06:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。