論文の概要、ライセンス

# (参考訳) バングラ語におけるソーシャルメディアコメントからのディープニューラルネットワークによるサイバブリング検出 [全文訳有]

Cyberbullying Detection Using Deep Neural Network from Social Media Comments in Bangla Language ( http://arxiv.org/abs/2106.04506v1 )

ライセンス: CC BY 4.0
Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Ashraf(参考訳) さまざまな主要言語のソーシャルメディア上でのサイバーいじめやオンラインハラスメントの検出が、世界中の研究者から注目されている。 ベンガル語話者の間では、世界で7番目の言語であり、オンラインプラットフォームの利用が増加しているため、オンラインハラスメントに対処する効果的な検出手法を見出す必要がある。 本稿では,ベンガル語におけるいじめ表現検出のためのハイブリッドニューラルネットワークを用いたバイナリ・マルチクラス分類モデルを提案する。 私たちは、人気のfacebookページから44,001人のユーザーのコメントを、非いじめ、性的、脅威、トロール、宗教の5つのクラスに分類した。 我々は,提案するモデルの性能を異なる視点から検討した。 二分分類モデルは87.91%の精度を示すが,多クラス分類ではニューラルネットワークの後にアンサンブル手法を導入すると85%の精度が得られる。

Cyberbullying or Online harassment detection on social media for various major languages is currently being given a good amount of focus by researchers worldwide. Being the seventh most speaking language in the world and increasing usage of online platform among the Bengali speaking people urge to find effective detection technique to handle the online harassment. In this paper, we have proposed binary and multiclass classification model using hybrid neural network for bully expression detection in Bengali language. We have used 44,001 users comments from popular public Facebook pages, which fall into five classes - Non-bully, Sexual, Threat, Troll and Religious. We have examined the performance of our proposed models from different perspective. Our binary classification model gives 87.91% accuracy, whereas introducing ensemble technique after neural network for multiclass classification, we got 85% accuracy.
公開日: Tue, 8 Jun 2021 16:47:22 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Cyberbullying Detection Using Deep Neural Network from Social Media Comments in Bangla Language バングラ語におけるソーシャルメディアコメントからのディープニューラルネットワークによるサイバブリング検出 0.71
Md Faisal Ahmed , Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin Md Faisal Ahmed, Zalish Mahmud, Zarin Tasnim Biash, Ahmed Ann Noor Ryen, Arman Hossain, Faisal Bin 0.85
Department of Computer Science and Engineering, Brac University, brac大学コンピュータ科学・工学科 0.46
Dhaka, 1212, Bangladesh ダッカ 1212年バングラデシュ 0.47
Ashraf Abstract - Cyberbullying or Online harassment detection on social media for various major languages is currently being given a good amount of focus by researchers worldwide. アシュラフ さまざまな主要言語でソーシャルメディア上でのサイバーいじめやオンラインハラスメントの検出が、世界中の研究者から注目されている。 0.60
Being the seventh most speaking language in the world and increasing usage of online platform among the Bengali speaking people urge to find effective detection technique to handle the online harassment. ベンガル語話者の間では、世界で7番目の言語であり、オンラインプラットフォームの利用が増加しているため、オンラインハラスメントに対処する効果的な検出手法を見出す必要がある。
訳抜け防止モード: ベンガル語話者の間では、世界第7位の言語であり、オンラインプラットフォームの利用が増加している オンラインハラスメントを 効果的に検出する技術を見つけました
0.73
In this paper, we have proposed binary and multiclass classification model using hybrid neural network for bully expression detection in Bengali language. 本稿では,ベンガル語におけるいじめ表現検出のためのハイブリッドニューラルネットワークを用いたバイナリ・マルチクラス分類モデルを提案する。 0.74
We have used 44,001 users’ comments from popular public Facebook pages, which fall into five classes - Non-bully, Sexual, Threat, Troll and Religious. われわれは、人気の高いfacebookページからの44,001人のユーザーのコメントを5つのクラスに分類した。
訳抜け防止モード: われわれは、人気の高いfacebookページからのコメントを44,001人利用した。 非いじめ、性的、脅威、トロール、宗教の5つのクラスに分類される。
0.63
We have examined the performance of our proposed models from different perspective. 我々は,提案するモデルの性能を異なる視点から検討した。 0.82
Our binary classification model gives 87.91% accuracy, whereas introducing ensemble technique after neural network for multiclass classification, we got 85% accuracy. 二分分類モデルは87.91%の精度を示すが,多クラス分類ではニューラルネットワークの後にアンサンブル手法を導入すると85%の精度が得られる。 0.68
Language Processing Index Terms - Online Harassment, Bully Detection, Sentiment Analysis, Natural Language Processing, Neural Network, Bangla 言語処理 Index Terms - Online Harassment, Bully Detection, Sentiment Analysis, Natural Language Processing, Neural Network, Bangla 0.82
I. INTRODUCTION Natural Language Processing (NLP) is the innovation used to aid computers to comprehend the human’s natural language. I 導入 自然言語処理(NLP)は、コンピュータが人間の自然言語を理解するのを助けるイノベーションである。 0.58
NLP is a branch of artificial intelligence that deals with the interaction between computers and humans utilizing the natural language. nlpは、自然言語を利用したコンピュータと人間の相互作用を扱う人工知能の分野である。 0.79
A definitive goal of NLP is to read, decode, comprehend, and make sense of the human dialects in a way that is significant. NLPの最終的な目標は、重要な方法で人間の方言を読み、解読し、理解し、理解することである。 0.73
There are generally five steps to process natural language - Lexical Analysis, Syntactic Analysis, Semantic Analysis, Discourse Integration, and Pragmatic Analysis [3]. 自然言語処理には一般的に5つのステップがある – 語彙解析,構文解析,意味解析,談話統合,実践解析[3]。 0.87
Lexical Analysis involves identifying and analyzing the structure of words. 語彙分析は、単語の構造を特定し、分析する。 0.75
Lexicon of a language implies the assortment of words and phrases in a language. 言語の語彙は、言語内の単語や句の分類を意味する。 0.77
Lexical analysis divides the entire group of texts into paragraphs, sentences, and words. 語彙分析は、テキスト群全体を段落、文、単語に分割する。 0.70
Syntactic Analysis (Parsing) involves analyzing the words present in the sentence for grammar and organizing the words in a way that shows the relationship among the words. 構文解析(構文解析)は、文法の文に存在する単語を分析し、単語間の関係を示す方法で単語を整理する。 0.67
For example, the sentence “I go to by school” is dismissed by the English syntactic analyzer. 例えば、"I go by school"という文は、英語の構文解析者によって取り除かれる。 0.76
Similarly, the sentence “বষ �ার েরােদ �াবেনর সৃ�� হয়” is rejected by the Bengali syntactic analyzer. 同様に、ベンガルの統語的分析者(英語版)(Bengali syntactic analysisr)は、この文を拒絶する。 0.51
In semantic analysis, the dictionary meaning of the word is being drawn from the text. 意味分析では、単語の辞書の意味がテキストから引き出されている。 0.65
In other words, the text is checked for meaningfulness. 言い換えれば、テキストは有意義かどうかチェックされる。 0.62
This is done with the help of mapping syntactic structures and objects in the task domain. これは、タスクドメインの構文構造とオブジェクトのマッピングの助けを借りて行われる。 0.78
The semantic analyzer disregards sentences such as “hot ice-cream” in English or “আ�ুল ফু েল কলাগাছ” in Bengali. セマンティックアナライザは、英語の"hot ice-cream"や、ベンガル語で"s"といった文を無視する。
訳抜け防止モード: semantic analyzerは英語の"hot ice - cream"のような文を無視している または、ベンガル語で「〜〜~~~~~~~~」。
0.69
Discourse Integration involves the meaning of a sentence that relies on the significance of the sentence just before it. 談話統合(Discourse Integration)とは、その直前の文の意義に依存する文の意味である。 0.69
Furthermore, it also realizes the meaning of the immediately succeeding sentence. さらに、すぐに続く文の意味も認識する。 0.52
Lastly, in the pragmatic analysis step, information exchanged is redeciphered on what it really implied. 最後に、実用分析のステップでは、交換された情報は、それが本当に意味するものに基づいて再認識される。 0.45
It includes determining those parts of language which require true information or real-world knowledge. 真の情報や現実世界の知識を必要とする言語のこれらの部分を決定することを含む。 0.61
Natural Language Processing allows computers to understand text, hear speech, decipher it, measure sentiment and figure out which parts are important [4]. 自然言語処理により、コンピュータはテキストを理解し、音声を聴き、それを解読し、感情を測定し、どの部分が重要なのかを判断できる[4]。 0.66
NLP has very important usage for language translation applications such as Google Translate [2]. NLPはGoogle Translate [2]のような言語翻訳アプリケーションにとって非常に重要な用途である。 0.76
Word Processors such as Microsoft Word and Grammarly use NLP to check grammatical accuracy of texts [2]. Microsoft Word や Grammarly などのワードプロセッサは NLP を使用してテキストの文法的精度 [2] をチェックする。 0.81
Similarly, we have used NLP to analyze the sentiment of the Bengali text. 同様に、我々はNLPを用いてベンガル文字の感情を分析した。 0.74
This allows us to differentiate whether the sentence is a bully expression or not. これにより、文がいじめ表現であるか否かを区別できる。 0.56
Cyberbullying or online harassment is the utilization of electronic correspondence to menace an individual, ordinarily by sending messages of an intimidating or compromising nature. サイバーいじめ(Cyberbullying)またはオンラインハラスメント(オンラインハラスメント)は、個人を脅かす電子通信の利用であり、通常、脅迫的または妥協的な性質のメッセージを送信する。
訳抜け防止モード: サイバーいじめやネットハラスメントは電子通信の利用である 個人を脅かすのです 通常、威圧的または妥協的な性質のメッセージを送ることで。
0.69
In the era of social media and online networking, the usage of offensive and aggressive words has increased significantly. ソーシャルメディアやオンラインネットワーキングの時代には、攻撃的・攻撃的な言葉の使用が著しく増加している。 0.67
These comments build up a culture of disrespect in cyberspace [5]. これらのコメントは、サイバースペースにおける軽視の文化を作り上げています [5]。 0.62
In earlier years, cyberbullying was not properly paid attention to and was overlooked. 初期のサイバーいじめは適切に注意を払われておらず、見過ごされていた。 0.53
The explanation was low participation of users in the social networking platform and it was recommended to screen off or detach in the event when one would get harassing remarks. この説明は、ソーシャルネットワークプラットフォームにユーザーが参加する機会が少なかったため、嫌がらせの発言を受ける際には、そのイベントのスクリーンオフやデタッチが推奨された。 0.61
Be that as it may, presently the situation is completely changed. もしそうなら、現在の状況は完全に変わります。 0.63
A 2019 study shows that out of every 100 women being cyber harassed, 70 are aged 15-25 years. 2019年の研究では、サイバーハラスメントを受けた女性100人中70人が15~25歳だった。 0.63
Among the harassment allegations and cases that come to the country's only cybercrime tribunal, harassment and defamation covers 18% [6]. 国内唯一のサイバー犯罪法廷に来るハラスメントや訴訟のうち、ハラスメントと名誉棄損は18%[6]をカバーしている。 0.59
The serious issues in battling cyberbullying include: finding obscene and offensive words and sentences when it happens on online stages; and then forwarding these cases in Bangladesh in order to find the people behind such actions in real life. サイバーいじめと戦う上で深刻な問題としては、オンラインのステージで発生したときのわいせつで不快な言葉や文を見つけること、そしてバングラデシュでこれらの事件を推し進めること。 0.64
No present online network or internet based social sites (for instance, Facebook and Twitter) fuses a framework to naturally and brilliantly distinguish animosity and occurrences of online provocation on its 既存のオンラインネットワークやインターネットベースのソーシャルサイト(FacebookやTwitterなど)は、オンラインの挑発行為を自然に、そして巧妙に区別するためのフレームワークを融合させていない。 0.67
英語(論文から抽出)日本語訳スコア
foundation. Due to the non-reality of this significant issue prior, it isn't viewed as the issue of exploration, yet now it is in a dangerous stage. 財団だ この重大な問題の非現実性のため、探査の問題とは見なされていないが、今は危険な段階にある。 0.56
Nobody can overlook this impact on the digital stage which is why it has become an important part of research on how to deal with this issue efficiently. この影響をデジタルステージに見落としている人はいないので、この問題に効果的に対処する方法の研究において重要な部分となっているのです。 0.71
It requires a genuine consideration by analysts and cybercrime agencies to control this movement on online harassment [5]. オンラインハラスメントのこの動きを制御するには、アナリストやサイバー犯罪機関による真剣な検討が必要です [5]。
訳抜け防止モード: アナリストやサイバー犯罪機関の 真面目な配慮が必要です オンラインハラスメントで この動きを制御するために [5]
0.78
Ergo, detecting words and sentences which is considered as online harassment on social networking platforms and the extent of the offensive word used in Bengali language is the goal of this work. ergoは、ソーシャルネットワーキングプラットフォーム上でオンラインハラスメントとみなされる言葉や文の検出と、ベンガル語で使われる攻撃的な単語の範囲が、この作業の目標である。 0.67
II. LITERATURE REVIEW II。 文献レビュー 0.62
Significant amount of work has been done in the field of Natural Language Processing introducing diverse techniques to handle text data. テキストデータを扱う様々な技術を導入する自然言語処理の分野で、かなりの作業が行われている。 0.83
Polarity of text data was calculated in some literature [7, 27]. テキストデータの極性は文献によっては [7, 27] で計算された。 0.76
They divided sentiment analysis into three parts accordingly: document level, sentence level and finally the entity and aspect level. 彼らは感情分析を文書レベル、文レベル、最後にエンティティとアスペクトレベルという3つの部分に分けた。 0.72
After performing data cleaning and preprocessing and stemming, a score was calculated based on the positive and negative dictionary. データクリーニングと前処理とステミングを行い、正と負の辞書に基づいてスコアを算出した。 0.67
The ultimate result allows us to know whether the sentence given as input was positive, negative or neutral. 最終的な結果から、入力として与えられた文が正か負か中立かが分かる。 0.70
They successfully managed to assign positive, negative or zero values to the sentences being provided as input leading to an ultimate review of the article. 彼らは、記事の最終的なレビューにつながる入力として提供される文に、正、負、あるいはゼロの値を割り当てることに成功した。 0.66
Improved baseline algorithm for sentiment analysis was proposed based on the focus sentence and context [8]. 焦点文と文脈に基づいて感情分析のためのベースラインアルゴリズムを改良した[8]。 0.76
They were able to discover what to focus particularly in a given sentence and how to deal with the dynamic sentiment of the word. 彼らは、与えられた文に特に焦点を合わせ、単語のダイナミックな感情をどう扱うかを発見することができた。 0.74
Another study proposed an efficient algorithm using the methods of NLP and Machine learning for analyzing the social comment and identified whether it was aggressive or not [9]. 別の研究では、NLPと機械学習を用いて社会コメントの分析を行い、それが攻撃的であるか否かを同定する効率的なアルゴリズムを提案した。 0.66
An effective classifier acts as the core component in their final prototype system that helps to detect cyberbullying on social media. 効果的な分類器は、ソーシャルメディア上のサイバーいじめを検出するのに役立つ最終プロトタイプシステムのコアコンポーネントとして機能する。 0.66
Logistic Regression and Random Forest Classifier trained on the feature stack performed better than Support Vector Machine and Gradient Boosting Machine in this particular case. 特徴スタック上でトレーニングされたロジスティック回帰とランダムフォレスト分類器は,この場合,サポートベクタマシンや勾配ブースティングマシンよりも優れた性能を示した。 0.66
A large number of abusive words and insults get missed out from the vocabulary because of the vast usage in many different forms and in different languages. 多くの虐待的な言葉や侮辱は、多くの異なる形態や異なる言語で広範囲に使われているため、語彙から逸脱している。 0.81
Two new speculations for feature extraction were introduced in literature which can be useful in distinguishing cyberbullying [10]. 文献では2つの新たな特徴抽出の憶測が紹介され, サイバーバブルの識別に有用である[10]。 0.65
They assembled a model which anticipated remarks as bully or non-bully. 彼らはいじめや暴言を予想するモデルを組み立てた。 0.69
The steps involved are normalization, standard feature extraction, additional feature extraction, feature selection and finally classification. 関連するステップは、正規化、標準特徴抽出、追加特徴抽出、特徴選択、最後に分類である。
訳抜け防止モード: 関連するステップは、正規化、標準機能抽出、追加機能抽出である。 特徴選択と最終分類
0.71
In standard feature extraction, they use Ngram, counting and TF-IDF score to construct feature vectors. 標準的な特徴抽出では、Ngram、カウント、TF-IDFスコアを使用して特徴ベクトルを構成する。 0.65
The ultimate product is the likelihood of the remark being hostile to members. 究極の製品は、メンバーに敵対的な発言をする可能性である。 0.64
Results show that their speculation expands the precision by 4% and can be utilized to distinguish the remarks that are focused towards peers. その結果、彼らの推測は精度を4%向上させ、仲間に焦点をあてた発言を区別することができる。 0.68
The accuracy of sentiment classification from text was improved effectively compared with traditional CNN and confirms the effectiveness of sentiment analysis based on CNNs and SVM [11]. テキストからの感情分類の精度は従来のCNNと比較して効果的に向上し,CNNとSVM [11]に基づく感情分析の有効性を確認した。 0.69
Emotion classification is divided into supervised, unsupervised and semi supervised methods. 感情分類は教師なし、無監督、半監督の方法に分けられる。 0.45
Pre-trained word vector was used as input, CNN was used as an automatic feature learner and SVM was used as an automatic emotional classifier. 事前学習した単語ベクトルを入力として、CNNを自動特徴学習機として、SVMを自動感情分類器として使用した。 0.73
Accuracy rate of using CNN-SVM model combined was found much higher than that of SVM and CNN separately. CNN-SVMモデルの組み合わせの精度は、SVMとCNNを別々に比較するとかなり高かった。 0.77
Another work [12] tried to build lexicon-based word vectors to predict text sentiment. 別の研究[12]は、テキスト感情を予測するためにレキシコンベースの単語ベクトルを構築しようとした。 0.58
Word embedding was used to build sentiment lexicon, then the polarity of sentiment words from a dataset of user comments is judged and finally naive Bayes was used to classify the represented features on massive dataset and user reviews from the app store. 感情のレキシコンを構築するために単語の埋め込みが使用され、ユーザコメントのデータセットからの感情の単語の極性が判断され、最終的に、大量のデータセット上で表現された機能の分類とアプリストアからのユーザレビューにナビゲートベイズが使用された。
訳抜け防止モード: 単語の埋め込みは感情のレキシコンを構築するために使われた。 ユーザーコメントのデータセットからの感情単語の極性が 最後にベイズが使われました 巨大なデータセットとApp Storeからのユーザレビューで表現された機能を分類する。
0.75
The precision and recall rate of lexicon built by word2vec was larger and easier than the lexicon built by PMI. 単語2vecで構築したレキシコンの精度とリコール率はPMIで構築したレキシコンよりも大きくて容易であった。 0.63
The average recall was very low as many of the sentiment words in the comments were not in the lexicon. 平均的なリコールは、コメントの感情的な単語の多くが辞書にないため、非常に低かった。 0.67
A recent work used two different types of dataset to detect hate speech using RNN to figure out which model performs better [14]. 最近の研究では、RNNを使ってヘイトスピーチを検出するために、2つの異なるタイプのデータセットを使用して、どのモデルがより良く動作するかを見つけています [14]。
訳抜け防止モード: 最近の研究は2種類のデータセットを使用した RNNを用いてヘイトスピーチを検知し、どのモデルが良いかを判断する [14 ]。
0.61
Dataset-A has little amount of data, Dataset-B's data is more than three times that of Dataset-A. Dataset-Aはデータ量が少なく、Dataset-BのデータはDataset-Aの3倍以上です。 0.85
From the general point of view, utilizing Dataset-B can show signs of improvement in execution. 一般的な観点からは、Dataset-Bは実行改善の兆候を示すことができる。 0.76
As per their results, the good performance was obtained using when the dataset was small. 結果から,データセットが小さい場合には,良好な性能が得られた。 0.81
And the good results can be obtained by using deep learning when more data were used for their experiments. また,実験により多くのデータを用いた場合,ディープラーニングを用いて良好な結果を得ることができる。 0.77
They also extracted some data from the raw data at the ratio of 10%-90% as test data and found that the overall performance of Logistic Regression was better than SVM. また、テストデータとして10%-90%の割合で生データからいくつかのデータを抽出し、ロジスティック回帰の全体的なパフォーマンスがSVMよりも優れていることを示した。 0.73
In the case of using SVM, the performance of TF-IDF was more prominent. SVMの場合,TF-IDFの性能は顕著であった。 0.69
From the most recent exploratory advancement, it may be presumed that utilizing BiRNN can improve results. 最近の探索的な進歩から、BiRNNの利用は結果を改善する可能性があると推測される。 0.67
Sentiment analysis using a combination of Naïve Bayes and a lexicon-based algorithm was used to analyze the opinion of different traders and predict the overall sentiment in foreign exchange markets [19]. ナイーブ・ベイズとレキシコン・ベースのアルゴリズムの組み合わせを用いた感情分析により、異なるトレーダーの意見を分析し、外国為替市場での全体的な感情を予測する [19]。
訳抜け防止モード: ナイーブベイズとレキシコンに基づくアルゴリズムの組み合わせによる感性分析を用いた。 異なるトレーダーの意見を分析し、外国為替市場の全体感を予想する[19]。
0.70
They managed to achieve a 90% accuracy based on the results. 彼らは結果に基づいて90%の精度を達成した。 0.79
Classification of tweets into positive, negative, and neutral on views of a particular product was done in another study [21]. 別の研究[21]では、特定の商品の視点でツイートを肯定的、否定的、中立的に分類した。 0.64
TextBlob was used to process textual data and Naïve Bayes was used for classifying the text, which is based on Stanford Natural Language Toolkit (NLTK). TextBlob はテキストデータ処理に使われ、Na've Bayes はStanford Natural Language Toolkit (NLTK) をベースとしたテキスト分類に使用された。 0.85
The training dataset was given to a feed-forward neural network and output layer determined the overall polarity. トレーニングデータセットはフィードフォワードニューラルネットワークに与えられ、出力層が全体的な極性を決定する。 0.72
Then a confusion matrix calculates the accuracy of the results, which was found to be 79-87%. すると、混乱行列が結果の精度を計算し、79-87%と判明した。 0.77
After collecting data from twitter using GloVe embedding's, a study was conducted to remove unwanted URLs, tags, and stop words [22]. グラブ埋め込みを使ってtwitterからデータを収集した後、不要なurl、タグ、ストップワード[22]を削除するための研究が行われた。 0.66
Later on, they did POS tagging to label the words. その後、POSタグを付けて単語をラベル付けした。 0.69
Afterward, the MSP model was used for aspect-based sentiment analysis and the probability was checked based on the polarities. その後、アスペクトベース感情分析にMSPモデルを用い、その極性に基づいて確率を確認した。 0.64
Based on the results accuracy obtained was 74.66%, which proves that the MSP model increases the accuracy in contrast to other neural network models that were used previously. 結果の精度は74.66%であり、MSPモデルが従来使用されていた他のニューラルネットワークモデルと比較して精度を高めることが証明されている。 0.76
A systematic study concentrated on applying sentiment analysis in a mixed dataset of multiple languages [20]. 複数の言語の混合データセットに感情分析を適用することに集中した体系研究 [20] 0.86
They used a Bengali-English dataset and a Telugu movie review dataset, which were passed through a single layer CNN, for classification. 彼らはBengali- EnglishデータセットとTelugu Movie Reviewデータセットを使用して、単一の層CNNを通して分類した。 0.72
Using pooling and dropout プールとドロップアウトの使用 0.83
英語(論文から抽出)日本語訳スコア
regularization they managed a 73.2% accuracy in the mixed Bangla dataset and 51.3% in the Telugu movie review dataset. 規則化 彼らは混合バングラデータセットで73.2%の精度を、テルグ映画レビューデータセットで51.3%の精度で処理した。
訳抜け防止モード: 混合バングラデータセットの 73.2 % の精度を 正規化し また、Teluguの映画レビューデータセットでは51.3%だった。
0.69
The accuracy could have been optimized if they used Word2vec instead of word indexing. 単語インデックスの代わりにword2vecを使用した場合、精度を最適化することができた。 0.61
With the growth of usage of Bangla language online, Bangla text processing has become an emerging field of study. バングラ語のオンライン利用の増加に伴い、バングラ語テキスト処理は新たな研究分野となっている。 0.70
Though Bangla text data is not abundant to analyze, many studies have been conducted on processing Bangla text. バングラ語テキストデータの解析は不十分であるが、バングラ語テキストの処理に関する多くの研究が行われている。 0.65
A superior way for Bangla sentiment analysis was introduced where they used three different models and two of them are using Word2vec models and another is the traditional Word to Index base text classifier model [15]. バングラの感情分析の優れた方法は、3つの異なるモデルを使用し、そのうち2つはword2vecモデルを使用し、もう1つは従来のword to index base text classificationifier model [15]である。 0.73
Then skip-gram and CBOW were used to generate vector representation of words to feed into a Deep Long Short-Term Memory (LSTM) network. その後、スキップグラムとCBOWを使用して単語のベクトル表現を生成し、LSTM(Deep Long Short-Term Memory)ネットワークにフィードする。 0.76
Through their works, they managed to get 83.79% accuracy. 彼らの業績により、彼らは83.79%の精度を得た。 0.59
Another work aimed to present a Bangla corpus specifically targeted for sentiment analysis [16]. 感情分析に特化したバングラコーパスの提示を目的とした別の研究[16] 0.64
They stemmed their word list using two different stemmers, StemmerR and StemmerP, and generated a word cloud based on the polarity of the words. 彼らは2つの異なるstemmerrとstemmerpを使って単語リストを作り、単語の極性に基づいて単語クラウドを生成した。 0.72
They managed to successfully polarize the words and achieve a good accuracy based on the sentiment of the words. 彼らはうまく単語を分極させ、単語の感情に基づいて正確な精度を達成することに成功した。 0.68
A study was conducted to determine positive or negative sentiment for Bangla language with higher accuracy and a simpler model [17]. バングラ語における肯定的あるいは否定的感情を高い精度とより単純なモデル[17]で決定する研究を行った。 0.75
They used a random forest classifier after POS tagging the words and handling negation words. 彼らはPOSタグ付けと否定語処理後にランダムな森林分類器を使用した。 0.66
They managed to get 87% accuracy but failed to deal with emoticons and certain characters that sometimes express sentiments too. 精度は87%でしたが、感情を表現するエモティコンや特定のキャラクターには対応できませんでした。 0.68
Bangla sentences were represented based on characters and information were extracted from the characters in another study [18]. バングラ語文は文字に基づいて表現され、別の研究で文字から情報を抽出した[18]。 0.65
They used an embedding layer with 67 units, 3 hidden layers where two layers are with 128 GRU units each and one vanilla layer with 1024 units stacked up serially, and at last, the output layer [28]. 彼らは67ユニットの埋め込み層と128GRUユニットの2つの層と1024ユニットのバニラ層が連続的に積み上げられ、最後に出力層[28]という3つの隠れ層を使用していた。 0.80
They managed to get good accuracy but the usage was limited due to the lack of application. 精度は良かったが、アプリケーションの欠如のため使用量は限られていた。 0.67
A method for producing Bangla word clusters based on semantic and contextual similarity was proposed in literature [24]. 文中では意味的・文脈的類似性に基づくバングラ語クラスタの作成法が提案されている [24]。
訳抜け防止モード: 意味的・文脈的類似性に基づくBangla単語クラスタの作成法 文学[24]で提案されました
0.79
They proposed an unsupervised machine learning technique to develop Bangla word clusters based on their semantic and contextual similarity using n-gram language model. 彼らは、n-gram言語モデルを用いた意味的および文脈的類似性に基づいて、Bangla単語クラスタを開発するための教師なし機械学習手法を提案した。
訳抜け防止モード: 彼らは教師なし機械学習手法を提案した n-gram言語モデルを用いたBangla単語クラスタの開発。
0.69
They used tri-gram model equations for calculating similarity. 彼らは類似度を計算するためにトリグラムモデル方程式を用いた。 0.55
Another study has introduced a word prediction model that can suggest the most probable word in the sentence [23]. 別の研究では、文中の最も確率の高い単語を提案できる単語予測モデルが導入された[23]。 0.77
They collected their sample data from several lists of newspapers, blogs, social networking sites (i.e. 彼らはいくつかの新聞、ブログ、ソーシャルネットワークサイトからサンプルデータを収集した。 0.74
Facebook) and from an opensource Bangla text corpus. facebook)と、オープンソースのバングラテキストコーパスから。 0.63
Then a training corpus was built from the data in a particular format. その後、特定のフォーマットでデータからトレーニングコーパスが構築された。 0.78
A probabilistic algorithm was used to generate the most likely candidates as a suggestion. 提案として最も可能性の高い候補を生成するために確率論的アルゴリズムが用いられた。 0.67
A semantic similarity checking algorithm was used to omit inappropriate candidate words from the suggestion list. 提案リストから不適切な候補単語を省略するために意味的類似性チェックアルゴリズムが用いられた。 0.70
To measure the semantic similarity of a sentence after predicting a word, they used word2vector model and the Stupid Backoff model was used to detect the most probable word. 単語予測後の文の意味的類似性を測定するために、ワード2ベクターモデルを使用し、Stupid Backoffモデルを用いて最も確率の高い単語を検出する。 0.75
The model emphasizes on scores rather than the probabilities and works well for large n-grams. このモデルは確率よりもスコアを重視し、大きなn-gramではうまく機能する。 0.63
Based on the results they managed to get an 83.01% accuracy which outperforms other words prediction models that were done before. 結果に基づいて、83.01%の精度を得たが、これは他の単語予測モデルよりも優れていた。
訳抜け防止モード: 彼らが管理した結果に基づいて 83.01%の精度で 他の単語予測モデルより優れています
0.84
III. WORKFLOW III。 ワークフロー 0.61
The workflow of the study is shown in Fig 1. 研究のワークフローは図1に示されています。 0.81
After collecting the dataset maintaining proper standards, we preprocessed the data. 適切な標準を維持したデータセットを収集した後、データを前処理しました。 0.51
Then, we have calculated vectors representing each word in multidimensional space, known as Word embedding, and fed them into hybrid neural network model with various variations. 次に,ワード埋め込みと呼ばれる多次元空間における各単語を表すベクトルを計算し,様々なバリエーションを持つハイブリッドニューラルネットワークモデルに入力した。 0.82
At last, we have analyzed the performance and came to conclusion. ついに私たちはパフォーマンスを分析し、結論に達しました。 0.76
Fig. 1 Workflow of the work フィギュア。 1作業のワークフロー 0.62
IV. DATASET AND PREPROCESSING IV。 データセット及びプリプロセッシング 0.62
The dataset that has been used in this work contains comments from the interaction section under posts given by actors, social media influencers, singers, politicians, sportsmen that can be viewed publicly on the Facebook platform [29]. この研究で使われたデータセットには、アクター、ソーシャルメディアインフルエンサー、歌手、政治家、スポーツマンが投稿した、Facebookプラットフォーム[29]でパブリックに閲覧可能な、インタラクションセクションからのコメントが含まれている。 0.58
The total number of comments collected is 44001. 総コメント数は44001である。 0.54
According to our dataset, 31.9% comments are targeted towards male victims and 68.1% comments are aimed towards female victims. データセットによると、男性対象のコメントは31.9%、女性対象のコメントは68.1%となっている。 0.62
Furthermore, 21.31% comments are targeted towards victims who are social influencers, 5.98% comments are targeted towards politicians, 4.68% comments are targeted towards athletes, 6.78% comments are targeted towards singers and 61.25% comments are targeted towards actors. さらに、21.31%のコメントはソーシャルインフルエンサーの被害者を対象とし、5.98%のコメントは政治家を対象とし、4.68%のコメントはアスリートを対象とし、6.78%のコメントは歌手を対象とし、61.25%のコメントは俳優を対象とする。 0.51
Table 1 describes the variables that has been used in the dataset. 表1はデータセットで使われた変数を記述します。 0.80
The labels of the dataset are explained below. データセットのラベルを以下に説明する。 0.75
Non-bully: In general, non-bully comments are those that are not intended to personally attack a person. non-bully: 一般的に、非bullyコメントは、個人攻撃を意図していないコメントです。 0.82
For example: “ত�িম এিগেয় চেলা, আমরা আিছ েতামার সােথ।”. 例:「は」。 এিগেয় চেলা, আমরা আিছ েতামার সােথ।”. 0.81
Sexual: The comments which spread hatred sexually against a person, sexually harass a person are categorized into this class. セクシュアル(Sexual) セクシュアル(性的嫌がらせ) セクシュアル(性的嫌がらせ) セクシュアル(性的嫌がらせ)は、この階層に分類される。 0.49
For example: “এভােব অধ �ন� ছিব েপা� না কের, পণ ��ািফ করেলই পােরন।”. For example: “এভােব অধ �ন� ছিব েপা� না কের, পণ ��ািফ করেলই পােরন।”. 0.85
英語(論文から抽出)日本語訳スコア
Threat: The threat class consists of comments input by users making a threat against another person to harm or kill. Threat: 脅威クラスは、ユーザが入力したコメントから成り、他人に危害を加えるか殺すかを脅かす。 0.87
For example: “েতােক জুতািপটা কের েদশ েথেক িবতািড়ত করা উিচত।” のために example: “েতােক জুতািপটা কের েদশ েথেক িবতািড়ত করা উিচত।” 0.68
Troll: The comments given by users to mock a person hurtfully are labelled with this category. Troll: 悪質な人をモックするユーザからのコメントには,このカテゴリのラベルが付けられています。 0.68
For example: “এই অপদাথ � মিহলার েচহারা েদখেলই েযন বিম আেস।”. 例:「は」。 মিহলার েচহারা েদখেলই েযন বিম আেস।”. 0.71
Religious: The comments, which state offensive words or convey and spread hatred against any religious groups, are 宗教:いかなる宗教集団に対しても、不快な言葉を述べ、伝達し、憎しみを広めるコメントは、 0.73
categorized into this class. このクラスに分類される。 0.75
For example: “এেদর েদখেত মানুেষর মত লােগ, িক� এরা আসেল মূিত�পূজাির কািফর।” For example: “এেদর েদখেত মানুেষর মত লােগ, িক� এরা আসেল মূিত�পূজাির কািফর।” 0.85
Table 1 Variables in Dataset 表 1 データセットの変数 0.82
Variable Comment Category Gender 変数 コメントカテゴリーの性別 0.75
Number of React Label Reactの数 ラベル 0.76
Type Text Categorical Categorical 種類 テキスト カテゴリー分類学 0.66
Integer Categorical Description Collected comments of the users 整数 分類 解説 ユーザーのコメントを収集する 0.64
Occupation of the victim Gender of the victim 被害者の職業 被害者の性別 0.63
Number of likes or reactions on that それに対する好意や反応の数 0.74
comment Type of harassment コメント 嫌がらせの種類 0.59
Fig. 2 Number of comments in each category フィギュア。 各カテゴリのコメント数が2つ 0.65
A. Data Preprocessing After collecting the comments, we removed bad characters, punctuations, etc. A。 データ前処理 コメント収集後、悪い文字や句読点などを削除しました。 0.72
from the raw data and pre-processed the 生のデータから事前処理し 0.64
collected information in order to feed it to our neural network. 情報を収集して ニューラルネットワークに供給しました 0.63
We performed the pre-processing steps in three parts: Stop words Removal, Tokenization of String and Padded sequence conversion. 単語の削除,文字列のトークン化,追加シーケンス変換の3つの部分で前処理を行った。 0.74
Stop words [26] are frequently used prepositions, linkers, quantifiers etc in any natural language. 停止語[26]は、自然言語において、しばしば前置詞、リンカ、量化詞などとして用いられる。 0.58
‘The’, ‘is’, ‘in’ etc are the most common stopwords in English language. The’, ‘is’, ‘in’ 等は英語で最も一般的なストップワードである。 0.69
In Bengali language, we have similar kind of stopwords as well, such as - ‘অতএব’, ‘অথচ’, ‘অথবা’ etc. ベンガル語でも同様の種類の停止語があり、例えば-------------------- -------------------- -------------------- -------------------- ---------
訳抜け防止モード: ベンガル語にも同じようなストップワードがあります 例えば、--'''''''''''''''''''''''''' などである。
0.37
We found a list of Bengali stopwords [13] and removed 398 stopwords from our raw sentences. 我々はベンガル語の停止語のリスト[13]を見つけ、原文から398の停止語を取り除いた。 0.65
It helps to improve accuracy and efficiency as we only work with meaningful words and vocabulary size gets increased. 意味のある単語と語彙のサイズだけを扱うことで、正確性と効率性が向上します。
訳抜け防止モード: 正確さと効率の向上に役立ちます 意味のある単語と語彙のサイズだけが増加するからです。
0.82
It also filters out most of the spam. また、スパムの大部分をフィルタリングする。 0.77
We used a property of tensorflow, which is called ‘Tokenizer’ in order to put a value to the most frequently used words. 私たちは、最も頻繁に使われる単語に値を置くために、tensorflowというプロパティを 'Tokenizer' と呼びました。 0.75
This will create a dictionary with the key being the word and the value being the token for that particular word. これにより、キーワードが単語である辞書と、その単語のトークンである値が作成されます。 0.80
In the next step, we tried to turn the sentence into a list of values based on these tokens. 次のステップでは、これらのトークンに基づいて文を値のリストにしようとしました。 0.68
We also replaced the unseen and unknown words, which don't 私たちはまた、目に見えない未知の単語を置き換えました。 0.64
英語(論文から抽出)日本語訳スコア
exist in the word index with “OOV”. は "OOV" の単語インデックスに存在する。 0.78
Words like ‘না��ক’ , ‘িব�াস’ , ‘আ�াহ’ etc. 語源は、's'、's'、's'、's'、's'などである。 0.57
came up to the top as these words appeared most frequently in our dataset. これらの単語がデータセットで 最も頻繁に現れるにつれて トップに上がりました 0.72
After tokenizing, we got a large number of tokens, which consists of 72202 vocabularies. トークン化後、72202語彙からなる多数のトークンが取得されました。 0.61
While feeding data into the neural network for training, we need them to be uniform in size. トレーニングのためにニューラルネットワークにデータを供給している間、サイズを均一にする必要があります。 0.70
We used padding to convert the sentences into a uniform sized text sequence. 我々はパディングを用いて文を一様サイズのテキストシーケンスに変換する。 0.70
Once the tokenizer has created the sequences, these sequences are passed to pad sequences in order to get padded in similar shape. トークン化器がシーケンスを作成すれば、これらのシーケンスは、同様の形にパディングされるために、パディングシーケンスに渡される。 0.62
As a result, the list of sentences has padded out into a matrix and each row of the matrix has a max length of 120. その結果、文のリストは行列にパドアウトされ、行列の各行は最大長さ120である。
訳抜け防止モード: その結果である。 文章のリストがマトリックスに詰め込まれました 行列の各行の最大長さは120です
0.63
For smaller sentences, we had to put an appropriate number of zeros after the sentence. 小文の場合、その文の後に適切な数のゼロを置く必要がありました。
訳抜け防止モード: より小さな文では、私たちは 文のあとに 適度な数のゼロを置く。
0.69
B. Word Embedding `To represent each of the words, we have used word-embedding vectors for each token of the sentence. B。 単語埋め込み それぞれの単語を表すために、私たちは文の各トークンに単語埋め込みベクターを使いました。 0.67
Word embedding is a process where words and associated words are clustered together in a multi-dimensional vector space. 単語埋め込みは、単語と関連する単語が多次元ベクトル空間にまとめられるプロセスである。 0.71
We have words in a sentence and often words that have similar meanings are close to each other. 文の中に単語があり、よく似た意味を持つ単語が互いに近い。
訳抜け防止モード: 文の中に言葉があります しばしば類似した意味を持つ単語は互いに近接しています
0.72
Similar vectors are given to the words those were found together in a higher dimensional space. 同様のベクトルは、高次元空間で一緒に発見された単語に与えられる。 0.80
Therefore, words can begin to cluster together. そのため、単語が集まり始めることがある。 0.68
The meaning of the words came from the labelling from our dataset. 単語の意味は、私たちのデータセットのラベルから来ました。 0.65
We used the Word2Vec [25] embedding model. 我々は word2vec [25] 埋め込みモデルを使った。 0.66
We considered 19469 vocabularies and embedding dimension was set to 16 in our model. 19469の語彙と埋め込み次元をモデルで16に設定した。 0.70
As a result, we can visualize our words clustering mainly on two opposite sides. その結果、単語のクラスタリングは、主に2つの反対側で可視化できる。 0.77
A visualization of the embedding vectors in multidimensional space is shown in Fig 3. 多次元空間における埋め込みベクトルの可視化を図3に示す。 0.89
Fig. 3 Visualization of word embedding フィギュア。 3 単語埋め込みの可視化 0.65
V. METHODOLOGY Our proposed model can be divided into three parts. V.方法 提案するモデルは3つの部分に分けられる。 0.68
At first, we considered these labels - ‘sexual’, ‘threat’, ’troll’, ‘religious’ as ‘bully’ and applied a binary classification model to identify whether the comment is harassment or not. 最初は、これらのレーベル、‘セクシュアリティ’、‘threat’、‘troll’、‘religious’を‘bully’とみなし、コメントが嫌がらせであるかどうかを識別するためにバイナリ分類モデルを適用した。 0.79
Then, we developed a hybrid model to classify all 5 classes. そして,5つのクラスを分類するハイブリッドモデルを開発した。 0.82
Finally, we collected the predicted result from both binary and multi-class classification models and applied ensemble method in order to improve our accuracy. 最後に,二つの分類モデルと多クラス分類モデルから予測結果を収集し,精度を向上させるためにアンサンブル法を適用した。 0.75
The setup is shown in Fig 4. 設定は図4に示されます。 0.81
A. Binary Classification Fig. A.バイナリ分類 フィギュア。 0.61
4 Experimentation Setup 4 実験のセットアップ 0.89
Objective of this classification was to predict if a comment is labelled as ‘bully’ or ‘not bully’. この分類の目的は、コメントが “bully” または “not bully” とラベル付けられているかどうかを予測することである。 0.68
Our implemented binary classification neural model is depicted in Fig 5. 実装したバイナリ分類ニューラルモデルは,図5に示す。 0.78
After embedding the raw inputs, we applied a 1D convolution layer. 生入力を埋め込んだ後、1次元畳み込み層を適用した。 0.59
We set the number of output filters as 32, length of the 1D convolution window as 3 and used ‘relu’ as the activation function. 出力フィルタの数を32に設定し,1次元畳み込みウィンドウの長さを3に設定し,アクティベーション関数としてreluを用いた。 0.84
Now, words will be grouped into the size of 3 and convolutions will be learned that can map classification to the desired output. 現在、単語は3のサイズにグループ化され、畳み込みは学習され、望ましい出力に分類をマッピングできる。 0.65
Next, we implemented a LSTM layer for faster training and good performance. 次に、高速なトレーニングと優れたパフォーマンスを実現するためのLSTM層を実装しました。 0.58
In this layer, we declared the number of outputs as 100. このレイヤでは、出力数を100と宣言しました。 0.68
To 0.64
英語(論文から抽出)日本語訳スコア
avoid overfitting, we used dropout and recurrent dropout with a rate of 0.2. オーバーフィッティングを避けるためにdropoutとrecurrent dropoutを0.2のレートで使用しました。 0.58
In the next layer, we used global average pooling 1D, which averages across the vector to flatten it out. 次のレイヤでは、ベクトルを平均して平らにするグローバル平均プール1Dを使用しました。 0.75
Afterwards, the outputs were fed into a shallow NN. その後、出力は浅いNNに供給された。 0.67
In this step, we use a dense layer with a ‘relu’ activation function and another dense layer with a ‘sigmoid’ activation function. このステップでは、'relu'活性化関数を持つ高密度層と、'sigmoid'活性化関数を持つ別の高密度層を用いる。 0.79
Finally, we compiled the neural network with ‘binary_crossentropy’ as we are classifying two different classes only. 最後に、ニューラルネットワークを‘binary_crossentropy’でコンパイルし、2つの異なるクラスのみを分類しました。 0.72
Fig 5 Binary Classification Model 図5 バイナリ分類モデル 0.76
Fig 6 Multiclass Classification Model 図6マルチクラス分類モデル 0.94
B. Multiclass Classification Objective of this classification is to predict whether a comment is a bully or what kind of bully. B. この分類の目的は、コメントがいじめなのか、どのようないじめなのかを予測することである。
訳抜け防止モード: b.この分類の多級分類の目的 コメントがいじめなのか、どんないじめなのかを予測する。
0.79
Therefore, there are five したがって5つある。 0.78
classes - ‘not bully’, ‘sexual’, ‘troll’, ‘religious’, and ‘threat’. class - ‘t bully’, ‘sexual’, ‘troll’, ‘宗教’, ‘threat’。 0.78
In this model, we have used the similar kind of structure of binary classification. このモデルでは,二分分類の類似した構造を用いている。 0.82
However, we have used ‘softmax’ activation function in the last layer of the DNN to predict the probability of each example to belong into these classes. しかし、DNNの最終層では、これらのクラスに属する各サンプルの確率を予測するために ‘softmax’ アクティベーション関数が使われています。 0.78
Fig 6 shows the architecture of this model. fig 6は、このモデルのアーキテクチャを示している。 0.65
VI. EXPERIMENTAL RESULT A. Binary Classification In Binary Classification, we have used 15 epochs and each epoch took an average of 264.8 seconds. VI。 実験結果 A.バイナリ分類 バイナリ分類では、15エポックを使用し、各エポックは平均264.8秒を要した。
訳抜け防止モード: VI。 実験結果 A. バイナリ分類における15のエポックを用いた分類 それぞれのエポックの平均時間は264.8秒でした
0.68
The best validation loss 最高のバリデーション損失 0.61
we got was 0.27204. 0.27204だった 0.70
Furthermore, the validation accuracy of this model was 87.91%. さらに、このモデルの検証精度は87.91%であった。 0.77
This classifier model holds precision of 90%, recall of 75% and F1-score of 82%. この分類器モデルは精度90%、リコール75%、F1スコア82%である。 0.70
This model can successfully predict 95% of the ‘not bully’ comments and 75% ‘bully’ comments. このモデルでは、95%の “No bully” コメントと75%の “bully” コメントを予測できる。 0.81
Epoch Vs Accuracy graph for Binary classification model is shown in Fig 7. バイナリ分類モデルのエポック対精度グラフは、図7に示される。 0.77
英語(論文から抽出)日本語訳スコア
Fig. 5 Epoch vs Accuracy and loss for binary classification フィギュア。 5 Epoch vs. バイナリ分類の精度と損失 0.63
B. Multiclass Classification In Multiclass Classification, we have used 15 epochs and each epoch took an average of 261.4 seconds. B.マルチクラス分類 マルチクラス分類では15エポックを使用し,各エポックは平均261.4秒を要した。 0.79
The best validation loss we got was 0.6210. 最高のバリデーション損失は 0.6210 だった。 0.67
Furthermore, the validation accuracy of this model was 79.29%. さらに、このモデルの検証精度は79.29%であった。 0.76
This classifier model holds precision of 81%, recall of 74% and F1-score of 76%. この分類器モデルは精度が81%、リコールが74%、F1スコアが76%である。 0.64
This model can successfully predict 85% of the not bully comments and 82% religious, 80% sexual, 48% threat and 73% troll comments. このモデルは、いじめでないコメントの85%、宗教的コメントの82%、性的コメントの80%、脅威の48%、トロルコメントの73%をうまく予測できる。 0.69
Epoch Vs Accuracy graph for Multiclass classification model is shown in Fig 8. マルチクラス分類モデルのEpoch Vs精度グラフを図8に示す。 0.84
Fig. 6 Epoch vs Accuracy and Loss for multiclass classification フィギュア。 6 Epoch vs Accuracy and Loss for Multiclass Classification 0.63
C. Ensemble To improve the accuracy of multiclass classifier, we tried to use ensemble model techniques with the help of binary classifier. c. マルチクラス分類器の精度を向上させるために,バイナリ分類器の助けを借りてアンサンブルモデルを用いた。 0.83
We trained using the predicted result for all the comments from both of the models and tried different supervised machine learning algorithms, such as: Random Forest, SVM, KNN, Naïve Bayes etc. 両モデルからのすべてのコメントに対して予測結果を使用してトレーニングを行い、ランダムフォレスト、SVM、KNN、ネイブベイズなど、さまざまな教師付き機械学習アルゴリズムを試しました。 0.73
classifiers. SVM algorithm stood out among these algorithms with an improved accuracy of 85%. 分類器 svmアルゴリズムは85%の精度でこれらのアルゴリズムの中で際立っている。 0.68
Performance comparison of these algorithms is shown in Table 2. これらのアルゴリズムの性能比較を表2に示す。 0.89
According to the confusion from categorical classification model matrix shown in Fig 9, we could successfully predict 91% of ‘Not bully’ comments, 85% of ‘Religious’ comments, 81% of ‘Sexual’ comments 50% of ‘Threat’ and 84% of ‘Troll’ comments. 図9に示すカテゴリ分類モデルマトリックスとの混同により、私たちは‘Not bully’コメントの91%、‘宗教’コメントの85%、‘Sexual’コメントの81%、‘Threat’コメントの50%、‘Troll’コメントの84%の予測に成功しました。 0.78
Detailed information of precision, recall and f1-score of each class using SVM are shown in Table 3. SVMを用いた各クラスの精度、リコール、f1スコアの詳細情報を表3に示す。 0.79
Table 2 Performance of different algorithm in Ensemble Technique 表2 アンサンブル手法における異なるアルゴリズムの性能 0.80
Algorithm Accuracy Precision アルゴリズム 精度 精度 0.74
Random Forest SVM KNN ランダムフォレスト SVM KNN 0.69
Naïve Bayes 0.84 0.85 0.84 0.79 ナイーヴ・ベイズ 0.84 0.85 0.84 0.79 0.52
0.84 0.85 0.85 0.84 0.85 0.85 0.47
0.78 Recall 0.84 0.85 0.84 0.78 0.84 0.85 0.84を思い出す 0.50
0.79 F1 score 0.79 f1スコア 0.66
0.84 0.84 0.84 0.84 0.84 0.84 0.47
0.78 0.78 0.59
英語(論文から抽出)日本語訳スコア
Fig. 7 Confusion Matrix of Final Prediction フィギュア。 7 最終予測の混乱行列 0.55
Table 3 Performance of different algorithm in Ensemble Technique Class 表3 アンサンブル技術クラスにおける異なるアルゴリズムの性能 0.86
Precision F1 score Not Bully Religious Sexual Threat Troll 精度 f1スコア 宗教的な性的脅威のトロールをいじめるのではなく 0.63
0.87 0.91 0.84 0.90 0.77 0.87 0.91 0.84 0.90 0.77 0.44
Recall 0.91 0.85 0.81 0.50 0.84 Recall 0.91 0.85 0.81 0.50 0.84 0.48
0.89 0.88 0.83 0.65 0.80 0.89 0.88 0.83 0.65 0.80 0.44
VI. RESULT ANALYSIS Our proposed model can classify the non-bully sentence as well as different category of bully successfully. VI。 結果分析 提案モデルでは,非大まかな文と異なるカテゴリーのいじめをうまく分類することができる。 0.64
In case of binary classification, it gave 87.91% accuracy, which is better than the recent studies discussed in the literature. 二進数の場合 分類は87.91%の精度で 論文で論じられた研究より 優れている
訳抜け防止モード: 二進数の場合 分類すると87.91%の精度で 最近 論文で論じられた研究より 優れています
0.68
Further, we built a multiclass classification model to identify all the category of harassment and got 79.29% accuracy. さらに,ハラスメントのカテゴリをすべて識別するマルチクラス分類モデルを構築し,79.29%の精度を得た。 0.78
To improve this accuracy with the help of binary classification we used an ensemble technique and got 85% accuracy for classifying into different category of harassment. この精度を二分分類の助けを借りて改善するため,アンサンブル法を用い,ハラスメントのカテゴリー別に85%の精度で分類した。 0.76
We managed to get a fair accuracy comparing with the recent work in Bangla language processing discussed in the literature review. 文献レビューで論じられたBangla言語処理の最近の研究と比較すると,かなり正確であった。 0.68
However, in the multiclass classification, the 'threat' category showed comparatively less accuracy than other categories due to low recall value. しかし,マルチクラス分類では,'threat'カテゴリはリコール値が低いため,他のカテゴリに比べて比較的精度が低かった。 0.81
But the precision is very high in this category. しかし、このカテゴリーでは精度は非常に高い。 0.79
So, it doesn’t falsely classify any other comments as threat. つまり、他のコメントを脅威として分類するわけではない。 0.75
Again, low recall shows that it cannot effectively identify all the threat comments due to the insufficient training data on ‘threat’ category. low recallは、‘threat’カテゴリーのトレーニングデータ不足のために、脅威コメントを効果的に識別できないことを示している。 0.68
It can be improved in the future if more data is given to the training set. トレーニングセットにより多くのデータが与えられれば、将来的には改善されるはずだ。 0.68
Another finding is that it showed false positive results for comparatively longer and complex sentences. もう一つの発見は、比較的長く複雑な文に対して偽陽性を示したことである。
訳抜け防止モード: 別の発見は 比較的長く複雑な文に対して偽陽性を認めた。
0.61
For example: “জুতা ৈতিরর ফ�া�রীর পােশই প� জবাই করেত েদখা যায়”. For example: “জুতা ৈতিরর ফ�া�রীর পােশই প� জবাই করেত েদখা যায়”. 0.85
This is a sentence that is not a bully or harassing sentence. これはいじめや嫌がらせではない文です。 0.47
However, if we enter this sentence as an input, the result identifies it as a threat (95%). しかし、この文を入力として入力すると、その結果は脅威として特定される(95%)。 0.75
Since, “জুতা” and “জবাই” - these words are often used to express verbal threat towards someone in Bengali language. 以来、これらの単語はベンガル語の誰かに対する言語的脅威を表現するためにしばしば用いられる。 0.61
Most of the sentences that contain words like these were labelled as a threat in our dataset. このような単語を含む文のほとんどは、データセットの脅威としてラベル付けされています。 0.62
As our dataset was only based on social media comments, we had a limitation and had to work with the comments that we were able to collect. 当社のデータセットはソーシャルメディアのコメントのみに基づいていたため、制限があり、収集可能なコメントを扱う必要がありました。 0.69
Nevertheless, this issue can be solved, if a mass variety of sentences with different word order and syntax are included as a training set. それでも、異なる単語順と構文の多種多様な文がトレーニングセットとして含まれている場合、この問題は解決できる。 0.77
英語(論文から抽出)日本語訳スコア
VI. CONCLUSION Bully detection on the Facebook platform for various major languages is quite challenging. VI。 結論 さまざまな主要言語向けのFacebookプラットフォームでの強気検出は非常に難しい。 0.70
This is because of the diversity of これは多様性のためです。 0.75
different languages and the ways they are used or typed by different users. 異なる言語と、異なるユーザによって使用されるか、タイプされる方法です。 0.73
In this paper, we have focused on detecting bully expressions on the Facebook platform for Bengali language. 本稿では,ベンガル語のFacebookプラットフォーム上でのいじめ表現の検出に焦点をあてた。 0.69
We can successfully detect whether a statement input by a user is a bully expression or not. 我々は,ユーザが入力した文がいじめ表現であるか否かをうまく検出できる。 0.63
Besides bully detection, we can also state to what category it falls in and to what extent it falls. いじめ検出の他に、どのカテゴリーに該当するか、どの範囲に該当するかを述べることもできる。 0.47
We have made five labels: non-bully, sexual, threat, troll and religious to categorize what sort of a statement has been input. 我々は、どんな声明が入力されたかを分類するために、暴言、性的、脅威、トロル、宗教の5つのラベルを作った。
訳抜け防止モード: 私たちは5つのレーベルを作りました:非いじめ、性的、 脅威 荒らし 宗教 文の入力の種類を分類する。
0.75
The dataset used for this paper is up to date consisting of a decent amount of data enabling us to get high precision results. この論文で使用されるデータセットは、精度の高い結果が得られる十分な量のデータで構成されています。 0.82
Our model took a higher training time and sometimes showed a false positive result for comparatively long sentences. モデルでは, 訓練時間が高くなり, 比較的長い文に対して偽陽性がみられた。 0.63
The drawbacks of this paper can be improved for future endeavors. この論文の欠点は今後の取り組みのために改善できる。 0.73
REFERENCES [1] Natural Language Processing is Fun!. 参考 [1]自然言語処理は楽しい! 0.58
(2021). Retrieved 8 June 2021, from https://medium.com/@ ageitgey/natural-lan guage-processing-is- fun-9a0bff37854e [2] A Simple Introduction to Natural Language Processing. (2021). https://medium.com/@ ageitgey/natural- language-processing- is-fun-9a0bff37854e [2] A Simple Introduction to Natural Language Processing. 0.73
(2021). Retrieved 8 June 2021, from https://becominghuma n.ai/a-simple-introd uction-to-naturallan guage-processing-ea6 6a1747b32 [3] Brill, E., & Mooney, R. J. (2021). 2021年6月8日、https://becominghuma n.ai/a-simple-introd uction-to-naturallan guage-process-ea66a1 747b32 [3] brill, e., & mooney, r. j。 0.67
(1997). An overview of empirical natural language processing. (1997). 経験的自然言語処理の概要 0.72
AI magazine, 18(4), 13-13. 第18期、第13期、第13期。 0.40
[4] What is Natural Language Processing?. [4]自然言語処理とは何か? 0.82
(2021). Retrieved 8 June 2021, from https://www.sas.com/ en_us/insights/analy tics/what-is-natural -languageprocessing- nlp.html [5] Sharma, Hitesh Kumar, and K. Kshitiz. (2021). https://www.sas.com/ en_us/insights/analy tics/what-is-natural -language processing-nlp.html [5] sharma, hitesh kumar, k. kshitiz。 0.65
"Nlp and machine learning techniques for detecting insulting comments on social networking platforms." 「ソーシャルネットワークプラットフォーム上での侮辱的コメントを検出するためのNlpおよび機械学習技術」 0.80
2018 International Conference on Advances in Computing and Communication Engineering (ICACCE). 2018 International Conference on Advances in Computing and Communication Engineering (ICACCE) 0.75
IEEE, 2018. 2018年、IEEE。 0.52
[6] “70% of Women Facing Cyber Harassment Are 15-25 Years in Age.” Dhaka Tribune, 24 Sept. 2019, www.dhakatribune.com /bangladesh/dhaka/20 19/09/24/70-of-women -facing-cyber-harass ment-are-15-25-years -in-age. Dhaka Tribune, 24 September 2019, www.dhakatribune.com /bangladesh/dhaka/20 19/09/24/70-of-women -face-cyber-harassme nt- are-15-25-in-age。 0.56
[7] Shirsat, Vishal S., Rajkumar S. Jagdale, and S. N. Deshmukh. [7]Shirsat, Vishal S., Rajkumar S. Jagdale, S. N. Deshmukh 0.84
"Document level sentiment analysis from news articles." 「新聞記事からの文書レベルの感情分析」 0.75
2017 International Conference on Computing, Communication, Control and Automation (ICCUBEA). 2017 International Conference on Computing, Communication, Control and Automation (ICCUBEA) に参加。 0.89
IEEE, 2017. 2017年、IEEE。 0.63
[8] Liu, Rui, and Ling Jin. [8]りゅう、りゅう、りゅう、りん) 0.43
"Sentiment analysis method based on the focus sentence and context for Chinese comment text." 「中国語コメントテキストのフォーカス文と文脈に基づく感性分析方法」 0.68
Proceedings of 2nd International Conference on Information Technology and Electronic Commerce. 第2回情報技術・電子商取引国際会議の開催報告 0.74
IEEE, 2014. 2014年、IEEE。 0.65
[9] Ahmed, Md Faisal; Mahmud, Zalish; Biash, Zarin Tasnim ; Ryen, Ahmed Ann Noor ; Hossain, Arman ; Ashraf, Faisal Bin (2021), “Bangla Online Comments Dataset”, Mendeley Data, V1, doi: 10.17632/9xjx8twk8p. 1 [10] Chavan, Vikas S., and S. S. Shylaja. 9]Ahmed, Md Faisal; Mahmud, Zalish; Biash, Zarin Tasnim ; Ryen, Ahmed Ann Noor ; Hossain, Arman ; Ashraf, Faisal Bin (2021), “Bangla Online Comments Dataset”, Mendeley Data, V1, doi: 10.17632/9xjx8twk8p. 1 [10] Chavan, Vikas S., S. S. Shylaja 0.94
"Machine learning approach for detection of cyber-aggressive comments by peers on social media network." 「ソーシャルメディアネットワーク上のピアによるサイバー攻撃的コメントの検出のための機械学習アプローチ」 0.78
2015 International Conference on Advances in Computing, Communications and Informatics (ICACCI). 2015 international conference on advances in computing, communications and informatics (icacci) の略。 0.80
IEEE, 2015. 2015年、IEEE。 0.69
[11] Chen, Yuling, and Zhi Zhang. [11]Chen、Yuling、Zhi Zhang。 0.63
"Research on text sentiment analysis based on CNNs and SVM." 『CNNとSVMに基づくテキスト感情分析の研究』 0.62
2018 13th IEEE Conference on Industrial Electronics and Applications (ICIEA). 2018 13th IEEE Conference on Industrial Electronics and Applications (ICIEA) に参加。 0.89
IEEE, 2018. 2018年、IEEE。 0.52
[12] Fan, Xian, et al "Apply word vectors for sentiment analysis of APP reviews." 12] Fan, Xian, et al 「APPレビューの感情分析のための言葉ベクトルの適用」 0.78
2016 3rd International Conference on Systems and Informatics (ICSAI). 2016年の第3回国際システム情報学会議(ICSAI)に参加。 0.71
IEEE, 2016. 2016年、IEEE。 0.61
[13] D. Gene, Stopwords Bengali (BN), (2016), GitHub repository, github.com/stopwords -iso/stopwords-bn/ [14] Jiang, Lin, and Yoshimi Suzuki. D. Gene, Stopwords Bengali (BN), (2016), GitHub repository, github.com/stopwords -iso/stopwords-bn/ [14] Jiang, Lin, Yoshimi Suzuki。 0.94
"Detecting hate speech from tweets for sentiment analysis." 「感情分析のためにツイートからヘイトスピーチを検出する」 0.66
2019 6th International Conference on Systems and Informatics (ICSAI). 第6回国際システム情報学会議(ICSAI)に参加。 0.75
IEEE, 2019. 2019年、IEEE。 0.67
[15] Sumit, Sakhawat Hosain, et al "Exploring word embedding for bangla sentiment analysis." [15]Sumit,Sakhawat Hosain,その他「バングラの感情分析のための埋め込み語探索」 0.65
2018 International Conference on Bangla Speech and Language Processing (ICBSLP). 2018 international conference on bangla speech and language processing (icbslp) の略。 0.81
IEEE, 2018. 2018年、IEEE。 0.52
[16] Rahman, Fuad, et al. 16] Rahman, Fuad, et al. 0.75
"An annotated Bangla sentiment analysis corpus." 『バングラの感情分析コーパス』 0.36
2019 International Conference on Bangla Speech and Language Processing (ICBSLP). 2019 international conference on bangla speech and language processing (icbslp) に参加して 0.85
IEEE, 2019. 2019年、IEEE。 0.67
[17] Tabassum, Nusrath, and Muhammad Ibrahim Khan. [17]Tabassum,Nusrath,Muh ammad Ibrahim Khan。 0.64
"Design an empirical framework for sentiment analysis from Bangla text using machine learning." 「機械学習を用いてバングラ文から感情分析の実証的枠組みを設計する」 0.75
2019 International Conference on Electrical, Computer and Communication Engineering (ECCE). 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE) に参加。 0.90
IEEE, 2019. 2019年、IEEE。 0.67
[18] Haydar, Mohammad Salman, Mustakim Al Helal, and Syed Akhter Hossain. Haydar, Mohammad Salman, Mustakim Al Helal, Syed Akhter Hossain 0.46
"Sentiment extraction from bangla text: A character level supervised recurrent neural network approach." 「バングラテキストからの強調抽出:文字レベルで教師付き再帰ニューラルネットワークアプローチ」 0.65
2018 international conference on computer, communication, chemical, material and electronic engineering (IC4ME2). 2018 international conference on computer, communication, chemical, material and electronic engineering (ic4me2) 参加報告 0.89
IEEE, 2018. 2018年、IEEE。 0.52
[19] Ranjit, Swagat, et al. [19] Ranjit, Swagat, et al. 0.85
"Foreign rate exchange prediction using neural network and sentiment analysis." 「ニューラルネットワークと感情分析を用いた対外レート交換予測」 0.74
2018 International Conference on Advances in Computing, Communication Control and Networking (ICACCCN). 2018 international conference on advances in computing, communication control and networking (icacccn) 参加報告 0.76
IEEE, 2018. 2018年、IEEE。 0.52
[20] Shalini, K., et al. [20] Shalini, K., et al. 0.85
"Sentiment analysis of indian languages using convolutional neural networks." 「畳み込みニューラルネットワークを用いたインド語の強調分析」 0.74
2018 International Conference on Computer Communication and Informatics (ICCCI). 2018 International Conference on Computer Communication and Informatics (ICCCI) に参加。 0.93
IEEE, 2018. 2018年、IEEE。 0.52
[21] Paliwal, Sneh, Sunil Kumar Khatri, and Mayank Sharma. Paliwal, Sneh, Sunil Kumar Khatri, Mayank Sharma。 0.50
"Sentiment analysis and prediction using neural networks." 「ニューラルネットワークを用いた感覚分析と予測」 0.79
International Conference on Advanced Informatics for Computing Research. International Conference on Advanced Informatics for Computing Research(英語) 0.87
Springer, Singapore, 2018. 2018年、シンガポール。 0.41
[22] Dhar, Shiv, et al "Sentiment Analysis Using Neural Networks: A New Approach." 22] dhar, shiv, et al 「ニューラルネットワークを用いたセンテンス分析:新しいアプローチ」 0.72
2018 Second International Conference on Inventive Communication and Computational Technologies (ICICCT). 2018 second international conference on inventive communication and computational technologies (icicct) 参加報告 0.76
IEEE, 2018. 2018年、IEEE。 0.52
[23] Mittra, Tanni, Linta Islam, and Deepak Chandra Roy. [23]ミトラ、タンニ、リンタ・イスラム、ディープク・チャンドラ・ロイ。 0.55
"Prediction of Semantically Correct Bangla Words Using Stupid Backoff and Word-Embedding Model." 「頑丈なバックオフと単語埋め込みモデルを用いた意味的正接バングラ語の予測」 0.63
2019 2nd International Conference on Applied Information Technology and Innovation (ICAITI). 第2回応用情報技術・イノベーション国際会議(ICAITI)に参加して 0.72
IEEE, 2019. 2019年、IEEE。 0.67
[24] Ismail, Sabir, and M. Shahidur Rahman. ismail, Sabir, and M. Shahidur Rahman. 0.59
"Bangla word clustering based on n-gram language model." 「n-gram言語モデルに基づくバンガラ語クラスタリング」 0.81
2014 International Conference on Electrical Engineering and Information & Communication Technology. 2014 international conference on electrical engineering and information & communication technology (英語) 0.89
IEEE, 2014. 2014年、IEEE。 0.65
[25] Mikolov, Tomas, et al "Distributed representations of words and phrases and their compositionality.&qu ot; [25] Mikolov, Tomas, et al 「単語と句の分散表現とその構成性」 0.70
arXiv preprint arXiv:1310.4546 (2013). arXiv preprint arXiv:1310.4546 (2013)。 0.76
[26] Teja, Sai. [26]テハ、サイ。 0.65
“What Are Stop Words.How to Remove Stop Words.” Medium, 31 Aug. 2020, medium.com/@saitejap onugoti/stop-words-i n-nlp-5b248dadad47. what are stop words.how to remove stop words.” medium, 31 aug. 2020, medium.com/@saitejap onugoti/stop-words-i n-nlp-5b248dadad47. 0.55
[27] Islam, M. U., Ashraf, F. B., Abir, A. I., & Mottalib, M. A. 27] イスラム教 m. u., ashraf, f. b., abir, a. i., & mottalib, m. a. 0.85
(2017, December). (2017年12月) 0.64
Polarity detection of online news articles based on sentence structure and dynamic dictionary. 文構造と動的辞書に基づくオンラインニュース記事の極性検出 0.71
In 2017 20th International Conference of Computer and Information Technology (ICCIT) (pp. 2017年の第20回コンピュータ情報技術国際会議(ICCIT)に参加。 0.79
1-5). IEEE. 1-5). IEEE。 0.81
[28] Helal, Mustakim Al. 28] helal, mustakim al. 0.53
Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation. bangla言語によるトピックモデリングと感情分析: 潜在ディリクレ割り当てと組み合わせたディープラーニングアプローチ。 0.60
Diss. Faculty of Graduate Studies and Research, University of Regina, 2018. Diss レジーナ大学大学院研究科、2018年。 0.45
[29] Ahmed, Md Faisal, et al (2021), “Bangla Online Comments Dataset”, Mendeley Data, V1, doi: 10.17632/9xjx8twk8p [29]Ahmed, Md Faisal, et al (2021), “Bangla Online Comments Dataset”, Mendeley Data, V1, doi: 10.17632/9xjx8twk8p 0.87
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。