論文の概要: Offensive Hebrew Corpus and Detection using BERT
- arxiv url: http://arxiv.org/abs/2309.02724v1
- Date: Wed, 6 Sep 2023 05:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:45:16.276896
- Title: Offensive Hebrew Corpus and Detection using BERT
- Title(参考訳): 攻撃的ヘブライ語コーパスとBERTによる検出
- Authors: Nagham Hamad, Mustafa Jarrar, Mohammad Khalilia, Nadim Nashif
- Abstract要約: 我々はヘブライ語に新たな攻撃的言語コーパスを提示する。
ツイート数は15,881件だった。
提案したデータセットと別のデータセットを用いて,Hebrew BERTモデルであるHeBERTとAlephBERTを微調整した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offensive language detection has been well studied in many languages, but it
is lagging behind in low-resource languages, such as Hebrew. In this paper, we
present a new offensive language corpus in Hebrew. A total of 15,881 tweets
were retrieved from Twitter. Each was labeled with one or more of five classes
(abusive, hate, violence, pornographic, or none offensive) by Arabic-Hebrew
bilingual speakers. The annotation process was challenging as each annotator is
expected to be familiar with the Israeli culture, politics, and practices to
understand the context of each tweet. We fine-tuned two Hebrew BERT models,
HeBERT and AlephBERT, using our proposed dataset and another published dataset.
We observed that our data boosts HeBERT performance by 2% when combined with
D_OLaH. Fine-tuning AlephBERT on our data and testing on D_OLaH yields 69%
accuracy, while fine-tuning on D_OLaH and testing on our data yields 57%
accuracy, which may be an indication to the generalizability our data offers.
Our dataset and fine-tuned models are available on GitHub and Huggingface.
- Abstract(参考訳): 攻撃的言語検出は多くの言語でよく研究されているが、ヘブライ語のような低リソース言語では遅れを取っている。
本稿では,ヘブライ語における新しい攻撃言語コーパスを提案する。
合計で15,881件のツイートがtwitterから検索された。
それぞれ5つのクラス(虐待、憎悪、暴力、ポルノ、無害)のうち1つ以上をアラビア語・ヘブライ語のバイリンガル話者によってラベル付けされた。
アノテーションのプロセスは、各アノテータがそれぞれのツイートのコンテキストを理解するためにイスラエルの文化、政治、プラクティスに精通していることが予想されるため、難しかった。
提案したデータセットと別のデータセットを用いて,Hebrew BERTモデルであるHeBERTとAlephBERTを微調整した。
D_OLaHと組み合わせることでHeBERTの性能が2%向上することがわかった。
alephbertをデータに微調整し、d_olahでテストすると69%の精度が得られますが、d_olahで微調整してデータでテストすると57%の精度が得られます。
データセットと微調整されたモデルはGitHubとHuggingfaceで利用可能です。
関連論文リスト
- A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages [0.0]
本研究では,ナイジェリアの3大言語であるHausa,Yoruba,Igboにおいて,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。
私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。
学習済み言語モデルを用いて、データセット中の攻撃的言語の検出の有効性を評価し、最高の性能モデルが90%の精度で達成した。
論文 参考訳(メタデータ) (2024-06-04T09:58:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Context-Gloss Augmentation for Improving Arabic Target Sense
Verification [1.2891210250935146]
最も一般的なアラビア語のセマンティックラベル付きデータセットはアラブ語である。
本稿では,機械のバックトランスレーションを用いて拡張することで,ArabGlossBERTデータセットの強化について述べる。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
論文 参考訳(メタデータ) (2023-02-06T21:24:02Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。
本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。
CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。
我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-23T11:57:36Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。