論文の概要: Transfer Learning Approach for Arabic Offensive Language Detection
System -- BERT-Based Model
- arxiv url: http://arxiv.org/abs/2102.05708v1
- Date: Tue, 9 Feb 2021 04:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 23:37:14.394925
- Title: Transfer Learning Approach for Arabic Offensive Language Detection
System -- BERT-Based Model
- Title(参考訳): アラビア語攻撃言語検出システムにおける伝達学習アプローチ --BERTモデル
- Authors: Fatemah Husain and Ozlem Uzuner
- Abstract要約: サイバーヘイト、オンラインハラスメント、その他のテクノロジーの誤用が増えている。
ナチュラル・ランゲージ・プロセッシング(NLP)分野の高度な技術を活用して、オンラインヘイトフリーコミュニティの開発を支援することは、社会正義にとって重要な課題である。
本研究は,複数のアラビア語攻撃言語データセットに対する双方向変換モデル(BERT)の微調整と訓練の効果を個別に検討することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing a system to detect online offensive language is very important to
the health and the security of online users. Studies have shown that cyberhate,
online harassment and other misuses of technology are on the rise, particularly
during the global Coronavirus pandemic in 2020. According to the latest report
by the Anti-Defamation League (ADL), 35% of online users reported online
harassment related to their identity-based characteristics, which is a 3%
increase over 2019. Applying advanced techniques from the Natural Language
Processing (NLP) field to support the development of an online hate-free
community is a critical task for social justice. Transfer learning enhances the
performance of the classifier by allowing the transfer of knowledge from one
domain or one dataset to others that have not been seen before, thus,
supporting the classifier to be more generalizable. In our study, we apply the
principles of transfer learning cross multiple Arabic offensive language
datasets to compare the effects on system performance. This study aims at
investigating the effects of fine-tuning and training Bidirectional Encoder
Representations from Transformers (BERT) model on multiple Arabic offensive
language datasets individually and testing it using other datasets
individually. Our experiment starts with a comparison among multiple BERT
models to guide the selection of the main model that is used for our study. The
study also investigates the effects of concatenating all datasets to be used
for fine-tuning and training BERT model. Our results demonstrate the limited
effects of transfer learning on the performance of the classifiers,
particularly for highly dialectic comments.
- Abstract(参考訳): オンライン攻撃言語を検出するシステムの開発は、オンラインユーザの健康とセキュリティにとって非常に重要である。
研究によると、サイバーハイト、オンラインハラスメント、その他のテクノロジーの誤用は、特に2020年の世界的なコロナウイルスパンデミックで増加している。
the anti-defamation league(adl)の最新レポートによると、オンラインユーザの35%が、アイデンティティに基づく特性に関連するオンラインハラスメントを報告している。
自然言語処理(NLP)分野から高度な技術を適用し、オンラインヘイトフリーコミュニティの開発を支援することは、社会正義にとって重要な課題です。
転送学習は、これまで見たことのないドメインやデータセットから他への知識の転送を可能にすることで分類器の性能を高め、分類器をより一般化できるようにする。
本研究では,トランスファー学習の原則を複数のアラビア語攻撃言語データセットに適用し,システム性能への影響を比較した。
本研究は,複数のアラビア語攻撃的言語データセットに対するBidirectional Encoder Representations from Transformers (BERT)モデルの微調整とトレーニングの効果を検討し,他のデータセットを用いて個別にテストすることを目的とする。
本実験は,本研究で使用する主モデルの選定を導くため,複数のBERTモデルの比較から開始する。
また、BERTモデルの微調整および訓練に使用するデータセットを連結する効果についても検討した。
本研究では, トランスファー学習が分類器の性能, 特に方言的コメントに対する影響を限定的に示した。
関連論文リスト
- Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [49.043599241803825]
Iterative Contrastive Unlearning (ICU)フレームワークは3つのコアコンポーネントで構成されている。
知識未学習誘導モジュールは、未学習の損失を通じて特定の知識を除去する。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を維持する。
また、特定のデータ片の未学習範囲を動的に評価し、反復的な更新を行う反復未学習リファインメントモジュールも用意されている。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Fine-Tuning Approach for Arabic Offensive Language Detection System:
BERT-Based Model [0.0]
本研究では,アラビア語攻撃言語データセットにおける微調整の効果について検討した。
我々は4つのデータセットを個別に組み合わせて、オンラインアラビア攻撃コンテンツに関する知識を得るために複数の分類器を開発する。
論文 参考訳(メタデータ) (2022-02-07T17:26:35Z) - A Feature Extraction based Model for Hate Speech Identification [2.9005223064604078]
本稿では、2021年のインド・ヨーロッパ語におけるヘイトスピーチと攻撃的コンテンツ識別に関するタスク1Aと1Bのタスク1Aとタスク1Bに関するTU Berlinチーム実験と結果について述べる。
異なる自然言語処理モデルの成功は、競技を通して各サブタスクに対して評価される。
実験に使用した実験モデルのうち、トランスファーラーニングベースモデルは両方のサブタスクで最高の結果を得た。
論文 参考訳(メタデータ) (2022-01-11T22:53:28Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Offensive Language and Hate Speech Detection with Deep Learning and
Transfer Learning [1.77356577919977]
我々は、ツイートを自動的に3つのクラスに分類するアプローチを提案する。
我々は、テキスト分類、感情チェック、テキストデータ拡張を含む主要な機能を含むクラスモジュールを作成する。
論文 参考訳(メタデータ) (2021-08-06T20:59:47Z) - An Online Multilingual Hate speech Recognition System [13.87667165678441]
6つのデータセットを1つの同質なデータセットに組み合わせて分析し、3つのクラスに分類します。
ほぼリアルタイムで有効なメトリックでページを識別し、スコア付けするツールを作成し、フィードバックでモデルを再トレーニングします。
英語とヒンディー語という2つの言語モデル上での多言語モデルの競合性能を証明し、ほとんどの単言語モデルに匹敵するあるいは優れた性能をもたらす。
論文 参考訳(メタデータ) (2020-11-23T16:33:48Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。