論文の概要: bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments
- arxiv url: http://arxiv.org/abs/2203.14267v1
- Date: Sun, 27 Mar 2022 10:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 19:40:32.451463
- Title: bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments
- Title(参考訳): bitsa_nlp@LT-EDI-ACL2022: ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアの検出のための事前訓練言語モデルの活用
- Authors: Vitthal Bhandari and Poonam Goyal
- Abstract要約: ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクを提案する。
我々はmBERTのようなモノリンガル・マルチリンガル・トランスフォーマーモデルを用いて実験を行った。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
- 参考スコア(独自算出の注目度): 0.9981479937152642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online social networks are ubiquitous and user-friendly. Nevertheless, it is
vital to detect and moderate offensive content to maintain decency and empathy.
However, mining social media texts is a complex task since users don't adhere
to any fixed patterns. Comments can be written in any combination of languages
and many of them may be low-resource.
In this paper, we present our system for the LT-EDI shared task on detecting
homophobia and transphobia in social media comments. We experiment with a
number of monolingual and multilingual transformer based models such as mBERT
along with a data augmentation technique for tackling class imbalance. Such
pretrained large models have recently shown tremendous success on a variety of
benchmark tasks in natural language processing. We observe their performance on
a carefully annotated, real life dataset of YouTube comments in English as well
as Tamil.
Our submission achieved ranks $9$, $6$ and $3$ with a macro-averaged F1-score
of $0.42$, $0.64$ and $0.58$ in the English, Tamil and Tamil-English subtasks
respectively. The code for the system has been open sourced.
- Abstract(参考訳): オンラインソーシャルネットワークはユビキタスでユーザーフレンドリーだ。
それでも、軽蔑と共感を維持するために攻撃的コンテンツの検出と適度な対応が不可欠である。
しかし、ソーシャルメディアのテキストのマイニングは、ユーザーが固定パターンに従わないため、複雑な作業である。
コメントはどんな言語でも書けるし、その多くが低リソースかもしれない。
本稿では,ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクについて述べる。
我々は,mBERTのようなモノリンガルおよび多言語トランスフォーマーモデルと,クラス不均衡に対処するためのデータ拡張手法を実験した。
このような事前学習された大規模モデルは最近、自然言語処理における様々なベンチマークタスクで大きな成功を収めている。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
提案は、英語、タミル語、タミル英語のサブタスクでそれぞれ$0.42$、$0.64$、$0.58$というマクロ平均f1-scoreで$9$、$6$、$3$で達成しました。
システムのコードはオープンソース化された。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Cordyceps@LT-EDI: Patching Language-Specific Homophobia/Transphobia
Classifiers with a Multilingual Understanding [0.0]
ホモフォビアおよびトランスフォビアヘイトスピーチ検出のための多言語(M-L)と言語固有の(L-S)アプローチを提案する。
M-Lモデルは、特定の言語では一般的でない、あるいは欠落している単語、フレーズ、概念をキャッチするために必要である。
L-Sモデルは、通常特定の言語で書くユーザーの文化的・言語的文脈を理解するのに適している。
論文 参考訳(メタデータ) (2023-09-24T06:37:54Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Detection of Homophobia & Transphobia in Dravidian Languages: Exploring
Deep Learning Methods [1.5687561161428403]
ホモフォビアとトランスフォビアはLGBT+コミュニティに対する攻撃的なコメントを構成している。
本稿では,マラヤラムとタミル・ランゲージのソーシャルメディアコメントの分類に異なるディープラーニング・モジュールの適用性を検討する。
論文 参考訳(メタデータ) (2023-04-03T12:15:27Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Toxicity Detection for Indic Multilingual Social Media Content [0.0]
本稿では、emphIIIT-D Abusive Comment Identification Challengeにおいて、ShareChat/Mojが提供するデータを用いて、チーム「Moj Masti」によって提案されたシステムについて述べる。
我々は、多言語トランスフォーマーに基づく事前訓練および微調整モデルを用いて、コード混在/コード切替型分類タスクにアプローチする方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-01-03T12:01:47Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - NLP-CUET@DravidianLangTech-EACL2021: Offensive Language Detection from
Multilingual Code-Mixed Text using Transformers [0.0]
本稿では,多言語コード混合データから不快テキストを識別する自動システムを提案する。
タミル語、マラヤラム語、カンナダ語を含む3つの言語で提供されるデータセット。
論文 参考訳(メタデータ) (2021-02-28T11:10:32Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。