論文の概要: The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach
- arxiv url: http://arxiv.org/abs/2101.08087v1
- Date: Wed, 20 Jan 2021 11:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:28:52.042439
- Title: The Challenges of Persian User-generated Textual Content: A Machine
Learning-Based Approach
- Title(参考訳): ペルシア語ユーザ生成テキストコンテンツの課題--機械学習に基づくアプローチ
- Authors: Mohammad Kasra Habib
- Abstract要約: この研究は、ペルシャのユーザー生成テキストコンテンツがもたらすハードルに対処するために機械学習ベースのアプローチを適用します。
提示されたアプローチは、ペルシア語の感情分析を行うために機械翻訳データセットを使用する。
実験の結果は、これまでの試みとは対照的に、有望な最先端のパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over recent years a lot of research papers and studies have been published on
the development of effective approaches that benefit from a large amount of
user-generated content and build intelligent predictive models on top of them.
This research applies machine learning-based approaches to tackle the hurdles
that come with Persian user-generated textual content. Unfortunately, there is
still inadequate research in exploiting machine learning approaches to
classify/cluster Persian text. Further, analyzing Persian text suffers from a
lack of resources; specifically from datasets and text manipulation tools.
Since the syntax and semantics of the Persian language is different from
English and other languages, the available resources from these languages are
not instantly usable for Persian. In addition, recognition of nouns and
pronouns, parts of speech tagging, finding words' boundary, stemming or
character manipulations for Persian language are still unsolved issues that
require further studying. Therefore, efforts have been made in this research to
address some of the challenges. This presented approach uses a
machine-translated datasets to conduct sentiment analysis for the Persian
language. Finally, the dataset has been rehearsed with different classifiers
and feature engineering approaches. The results of the experiments have shown
promising state-of-the-art performance in contrast to the previous efforts; the
best classifier was Support Vector Machines which achieved a precision of
91.22%, recall of 91.71%, and F1 score of 91.46%.
- Abstract(参考訳): 近年、大量のユーザ生成コンテンツから恩恵を受け、その上にインテリジェントな予測モデルを構築する効果的なアプローチの開発について、多くの研究論文や研究が出版されている。
この研究は、ペルシャのユーザーが生成したテキストコンテンツのハードルに対処するために機械学習に基づくアプローチを適用する。
残念ながら、ペルシア語のテキストを分類/クラスタ化するための機械学習アプローチを利用するには、依然として不十分な研究がある。
さらにペルシャのテキストの分析は、特にデータセットやテキスト操作ツールのリソース不足に苦しむ。
ペルシア語の構文と意味は英語や他の言語とは異なるため、これらの言語から得られる資源はペルシャ語ですぐには利用できない。
加えて、名詞や代名詞の認識、言語タグ付け、単語の境界の発見、ペルシャ語に対する語源や文字操作は、さらなる研究を必要とする未解決の問題である。
そのため,本研究ではいくつかの課題に対処する努力がなされている。
このアプローチでは、ペルシャ語の感情分析に機械翻訳データセットを使用する。
最後に、データセットは異なる分類器と機能エンジニアリングアプローチでリハーサルされている。
実験の結果、従来の取り組みとは対照的に最先端のパフォーマンスが期待でき、最高の分類器は91.22%の精度、91.71%のリコール、91.46%のF1スコアを達成したサポートベクトルマシンであった。
関連論文リスト
- Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - PersianLLaMA: Towards Building First Persian Large Language Model [5.79461948374354]
本稿ではペルシャ語テキストとデータセットの収集に基づいて訓練されたペルシャ語モデルであるペルシャ語モデル(ペルシャ語モデル)を紹介する。
その結果、ペルシャのLLaMAは、ペルシャ語のテキストの理解と生成において、競争相手を著しく上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-12-25T12:48:55Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Evaluating Persian Tokenizers [6.10917825357379]
この記事ではペルシャ語で最も広く使われているトークンーエーザによる新しい研究を紹介する。
単純なアルゴリズムと事前にタグ付けされたペルシャの依存関係データセットを使用して、ペルシャのテキストのパフォーマンスを比較し評価する。
F1-Scoreでトークン化剤を評価した後、F1スコア98.97%のバウンドモルヒムを固定したFarsi VerbとHazmのハイブリッド版が最高の性能を示した。
論文 参考訳(メタデータ) (2022-02-22T13:27:24Z) - ViraPart: A Text Refinement Framework for ASR and NLP Tasks in Persian [0.0]
テキストの明確化にParsBERTを組み込んだViraPartフレームワークを提案する。
最終的に、提案されたZWNJ認識モデル、句読点復元モデル、ペルシャ・エザフ構成モデルは、それぞれ96.90%、92.13%、98.50%の平均的なF1マクロスコアを実行する。
論文 参考訳(メタデータ) (2021-10-18T08:20:40Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A novel approach to sentiment analysis in Persian using discourse and
external semantic information [0.0]
自然言語で書かれた文書から個人の感情を抽出するための多くのアプローチが提案されている。
これらのアプローチの大半は英語に重点を置いているが、ペルシア語のような資源中心の言語は研究作業や言語資源の欠如に悩まされている。
ペルシア語におけるこのギャップのため、現在の研究はペルシア語に適用される感情分析の新しい手法を導入することを目的としている。
論文 参考訳(メタデータ) (2020-07-18T18:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。