論文の概要: The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach
- arxiv url: http://arxiv.org/abs/2101.08087v1
- Date: Wed, 20 Jan 2021 11:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:28:52.042439
- Title: The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach
- Title(参考訳): ペルシア語ユーザ生成テキストコンテンツの課題--機械学習に基づくアプローチ
- Authors: Mohammad Kasra Habib
- Abstract要約: この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over recent years a lot of research papers and studies have been published on
the development of effective approaches that benefit from a large amount of
user-generated content and build intelligent predictive models on top of them.
This research applies machine learning-based approaches to tackle the hurdles
that come with Persian user-generated textual content. Unfortunately, there is
still inadequate research in exploiting machine learning approaches to
classify/cluster Persian text. Further, analyzing Persian text suffers from a
lack of resources; specifically from datasets and text manipulation tools.
Since the syntax and semantics of the Persian language is different from
English and other languages, the available resources from these languages are
not instantly usable for Persian. In addition, recognition of nouns and
pronouns, parts of speech tagging, finding words' boundary, stemming or
character manipulations for Persian language are still unsolved issues that
require further studying. Therefore, efforts have been made in this research to
address some of the challenges. This presented approach uses a
machine-translated datasets to conduct sentiment analysis for the Persian
language. Finally, the dataset has been rehearsed with different classifiers
and feature engineering approaches. The results of the experiments have shown
promising state-of-the-art performance in contrast to the previous efforts; the
best classifier was Support Vector Machines which achieved a precision of
91.22%, recall of 91.71%, and F1 score of 91.46%.
- Abstract(参考訳): 近年、大量のユーザ生成コンテンツから恩恵を受け、その上にインテリジェントな予測モデルを構築する効果的なアプローチの開発について、多くの研究論文や研究が出版されている。
この研究は、ペルシャのユーザーが生成したテキストコンテンツのハードルに対処するために機械学習に基づくアプローチを適用する。
残念ながら、ペルシア語のテキストを分類/クラスタ化するための機械学習アプローチを利用するには、依然として不十分な研究がある。
さらにペルシャのテキストの分析は、特にデータセットやテキスト操作ツールのリソース不足に苦しむ。
ペルシア語の構文と意味は英語や他の言語とは異なるため、これらの言語から得られる資源はペルシャ語ですぐには利用できない。
加えて、名詞や代名詞の認識、言語タグ付け、単語の境界の発見、ペルシャ語に対する語源や文字操作は、さらなる研究を必要とする未解決の問題である。
そのため,本研究ではいくつかの課題に対処する努力がなされている。
このアプローチでは、ペルシャ語の感情分析に機械翻訳データセットを使用する。
最後に、データセットは異なる分類器と機能エンジニアリングアプローチでリハーサルされている。
実験の結果、従来の取り組みとは対照的に最先端のパフォーマンスが期待でき、最高の分類器は91.22%の精度、91.71%のリコール、91.46%のF1スコアを達成したサポートベクトルマシンであった。
関連論文リスト
- A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Evaluating Persian Tokenizers [6.10917825357379]
この記事ではペルシャ語で最も広く使われているトークンーエーザによる新しい研究を紹介する。
単純なアルゴリズムと事前にタグ付けされたペルシャの依存関係データセットを使用して、ペルシャのテキストのパフォーマンスを比較し評価する。
F1-Scoreでトークン化剤を評価した後、F1スコア98.97%のバウンドモルヒムを固定したFarsi VerbとHazmのハイブリッド版が最高の性能を示した。
論文 参考訳(メタデータ) (2022-02-22T13:27:24Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - A Survey on sentiment analysis in Persian: A Comprehensive System
Perspective Covering Challenges and Advances in Resources, and Methods [0.0]
本論文の主な目標は、ペルシャ感情分析における最先端の進歩に関する包括的な文献調査を提供することである。
ペルシャ語テキストの感情分析手法に関する詳細な調査を行い、ペルシア語に関する以前の関連研究について論じる。
英語感情分析の最先端の発展によれば、ペルシャ語のテキストでは対処されていない問題や課題がリストアップされている。
論文 参考訳(メタデータ) (2021-04-30T04:31:21Z) - Subsentence Extraction from Text Using Coverage-Based Deep Learning
Language Models [3.3461339691835277]
カバレッジに基づく感情・サブセンテンス抽出システムを提案する。
予測サブセンテンスは、感情を表す補助情報からなる。
我々のアプローチは、最先端のアプローチよりも、subsentence予測の大きなマージンで勝っている。
論文 参考訳(メタデータ) (2021-04-20T06:24:49Z) - ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。
このリッチ言語で利用可能なNLUデータセットは少ない。
ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文 参考訳(メタデータ) (2020-12-11T06:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。