論文の概要: hBert + BiasCorp -- Fighting Racism on the Web
- arxiv url: http://arxiv.org/abs/2104.02242v1
- Date: Tue, 6 Apr 2021 02:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 21:20:31.436358
- Title: hBert + BiasCorp -- Fighting Racism on the Web
- Title(参考訳): hBert + BiasCorp -- Web上で人種差別と戦う
- Authors: Olawale Onabola, Zhuang Ma, Yang Xie, Benjamin Akera, Abdulrahman
Ibraheem, Jia Xue, Dianbo Liu, Yoshua Bengio
- Abstract要約: これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
本研究では、hBERT を新しい Hopfield Layer を用いて、予め訓練された BERT モデルの特定の層を修正する。
開発者がwebアプリケーションでトレーニングされたモデルを利用できるようにするため、javascriptライブラリとchrome拡張アプリケーションもリリースしています。
- 参考スコア(独自算出の注目度): 58.768804813646334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subtle and overt racism is still present both in physical and online
communities today and has impacted many lives in different segments of the
society. In this short piece of work, we present how we're tackling this
societal issue with Natural Language Processing. We are releasing BiasCorp, a
dataset containing 139,090 comments and news segment from three specific
sources - Fox News, BreitbartNews and YouTube. The first batch (45,000 manually
annotated) is ready for publication. We are currently in the final phase of
manually labeling the remaining dataset using Amazon Mechanical Turk. BERT has
been used widely in several downstream tasks. In this work, we present hBERT,
where we modify certain layers of the pretrained BERT model with the new
Hopfield Layer. hBert generalizes well across different distributions with the
added advantage of a reduced model complexity. We are also releasing a
JavaScript library and a Chrome Extension Application, to help developers make
use of our trained model in web applications (say chat application) and for
users to identify and report racially biased contents on the web respectively.
- Abstract(参考訳): 服従と過激な人種差別は現在も物理的およびオンラインのコミュニティに存在し、社会の様々な部分における多くの生活に影響を与えている。
この短い作品の中で、自然言語処理でこの社会的な問題に取り組む方法を紹介します。
これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
最初のバッチ(45,000の手作業による注釈付き)は公開準備が整った。
現在、Amazon Mechanical Turkを使って残りのデータセットを手動でラベル付けする最終段階です。
BERTはいくつかの下流タスクで広く使われている。
本稿では,新しいホップフィールド層を用いて事前学習した bert モデルの特定の層を変更する hbert について述べる。
hBertはモデルの複雑さを減らし、様々な分布をうまく一般化する。
また、javascriptライブラリとchrome拡張アプリケーションもリリースしています。これは、開発者がwebアプリケーション(例えばチャットアプリケーション)でトレーニングされたモデルを活用し、ユーザがそれぞれweb上の人種的に偏ったコンテンツを識別し、報告できるようにします。
関連論文リスト
- Detecting Racist Text in Bengali: An Ensemble Deep Learning Framework [0.0]
人種差別は我々の国だけでなく世界中で危険な現象だ。
ベンガル語で新しいデータセットを構築しました。
我々は87.94%の精度でテキスト検出に成功した。
論文 参考訳(メタデータ) (2024-01-30T04:56:55Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - The World of an Octopus: How Reporting Bias Influences a Language
Model's Perception of Color [73.70233477125781]
報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限されていることを示す。
次に、マルチモーダルモデルが視覚的トレーニングを利用してこれらの効果を緩和できることを実証する。
論文 参考訳(メタデータ) (2021-10-15T16:28:17Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - Pre-Training BERT on Arabic Tweets: Practical Considerations [11.087099497830552]
トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。
すべてアラビア方言とソーシャルメディアをサポートすることを意図している。
新しいモデルは、いくつかの下流タスクで最新の結果を達成します。
論文 参考訳(メタデータ) (2021-02-21T20:51:33Z) - Detecting Insincere Questions from Text: A Transfer Learning Approach [0.0]
今日インターネットは、quora、reddit、stackoverflow、twitterなどのコンテンツベースのウェブサイトで人々が会話する、未解決の情報ソースになっている。
そのようなウェブサイトで発生する大きな問題は、有毒なコメントの拡散や、ユーザーが真剣な動機を維持する代わりに、有毒で分裂的なコンテンツを拡散させることです。
本稿では,viz BERT, RoBERTa, DistilBERT, ALBERTの4つの切削年代モデルを微調整し,Insincere Questions Classification問題を解く。
論文 参考訳(メタデータ) (2020-12-07T15:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。