論文の概要: Vulgar Remarks Detection in Chittagonian Dialect of Bangla
- arxiv url: http://arxiv.org/abs/2308.15448v1
- Date: Tue, 29 Aug 2023 17:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 13:00:33.704057
- Title: Vulgar Remarks Detection in Chittagonian Dialect of Bangla
- Title(参考訳): バングラのチタゴニア方言におけるVulgar Remarks Detection
- Authors: Tanjim Mahmud, Michal Ptaszynski, Fumito Masui
- Abstract要約: 本研究では,教師付きMLとディープラーニングアルゴリズムを用いてソーシャルメディアにおける下品な発言を検出することに焦点を当てた。
ロジスティック回帰は有望な精度(0.91)を達成し、Word2vecとfastTexを使った単純なRNNはより低い精度(0.84-0.90)を達成し、NNアルゴリズムがより多くのデータを必要とする問題を強調した。
- 参考スコア(独自算出の注目度): 1.1049608786515839
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The negative effects of online bullying and harassment are increasing with
Internet popularity, especially in social media. One solution is using natural
language processing (NLP) and machine learning (ML) methods for the automatic
detection of harmful remarks, but these methods are limited in low-resource
languages like the Chittagonian dialect of Bangla.This study focuses on
detecting vulgar remarks in social media using supervised ML and deep learning
algorithms.Logistic Regression achieved promising accuracy (0.91) while simple
RNN with Word2vec and fastTex had lower accuracy (0.84-0.90), highlighting the
issue that NN algorithms require more data.
- Abstract(参考訳): ネットいじめやハラスメントの悪影響は、特にソーシャルメディアでインターネットの人気が高まりつつある。
One solution is using natural language processing (NLP) and machine learning (ML) methods for the automatic detection of harmful remarks, but these methods are limited in low-resource languages like the Chittagonian dialect of Bangla.This study focuses on detecting vulgar remarks in social media using supervised ML and deep learning algorithms.Logistic Regression achieved promising accuracy (0.91) while simple RNN with Word2vec and fastTex had lower accuracy (0.84-0.90), highlighting the issue that NN algorithms require more data.
関連論文リスト
- Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TEET! Tunisian Dataset for Toxic Speech Detection [0.0]
チュニジア方言は、MSA、タマジット、イタリア語、フランス語など、他の多くの言語と組み合わせられている。
リッチな言語であるため、大規模な注釈付きデータセットが欠如しているため、NLP問題への対処は困難である。
本稿では,約10kのコメントからなる注釈付きデータセットを提案する。
論文 参考訳(メタデータ) (2021-10-11T14:00:08Z) - Cyberbullying Detection Using Deep Neural Network from Social Media
Comments in Bangla Language [0.0]
我々は,ベンガル語におけるいじめ表現検出のためのハイブリッドニューラルネットワークを用いた二分分類モデルと多クラス分類モデルを提案する。
我々は、人気のある公開Facebookページからの44,001人のユーザーコメントを使用しており、これは、Non-bully、Sexual、Threat、Troll、Religiousの5つのクラスに分類される。
私たちのバイナリ分類モデルでは,87.91%の精度が得られていますが,マルチクラス分類のためのニューラルネットワーク後のアンサンブル手法を導入すれば,85%の精度が得られます。
論文 参考訳(メタデータ) (2021-06-08T16:47:22Z) - Autoregressive Belief Propagation for Decoding Block Codes [113.38181979662288]
誤り訂正符号の復号化にグラフニューラルネットワークを用いた最近の手法を再検討する。
本手法は,他手法がゼロワードでのみ学習できる対称性条件に反する。
1つの単語でトレーニングする余地がなく、関連するサンプル空間のごく一部でトレーニングできないにもかかわらず、効果的なトレーニングを実演する。
論文 参考訳(メタデータ) (2021-01-23T17:14:55Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z) - Detecting Social Media Manipulation in Low-Resource Languages [29.086752995321724]
悪意あるアクターは、低リソースのアクターを含む国や言語でコンテンツを共有します。
低リソース言語設定で悪意のあるアクターをどの程度検出できるかについて検討する。
テキスト埋め込みと転送学習を組み合わせることで,我々のフレームワークは,タガログに投稿する悪意のあるユーザを,有望な精度で検出することができる。
論文 参考訳(メタデータ) (2020-11-10T19:38:03Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。