論文の概要: MUDES: Multilingual Detection of Offensive Spans
- arxiv url: http://arxiv.org/abs/2102.09665v1
- Date: Thu, 18 Feb 2021 23:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 02:21:34.754189
- Title: MUDES: Multilingual Detection of Offensive Spans
- Title(参考訳): MUDES:攻撃的スパンの多言語検出
- Authors: Tharindu Ranasinghe, Marcos Zampieri
- Abstract要約: MUDESはテキスト中の攻撃的スパンを検出するシステムである。
事前トレーニングされたモデル、開発者向けのPython API、ユーザフレンドリーなWebベースインターフェースを備えている。
- 参考スコア(独自算出の注目度): 3.284443134471233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interest in offensive content identification in social media has grown
substantially in recent years. Previous work has dealt mostly with post level
annotations. However, identifying offensive spans is useful in many ways. To
help coping with this important challenge, we present MUDES, a multilingual
system to detect offensive spans in texts. MUDES features pre-trained models, a
Python API for developers, and a user-friendly web-based interface. A detailed
description of MUDES' components is presented in this paper.
- Abstract(参考訳): ソーシャルメディアにおける攻撃的コンテンツ識別への関心は近年大きくなっている。
以前の作業は、主にポストレベルのアノテーションを扱う。
しかし、攻撃的スパンの特定は多くの点で有用である。
この課題に対処するために,テキスト中の攻撃的スパンを検出する多言語システム MUDES を提案する。
MUDESは、事前トレーニングされたモデル、開発者向けのPython API、ユーザフレンドリーなWebベースインターフェースを備えている。
本論文では,MUDESの構成要素について詳述する。
関連論文リスト
- OffensiveLang: A Community Based Implicit Offensive Language Dataset [5.813922783967869]
ヘイトスピーチや攻撃的な言語は、明示的な形と暗黙的な形の両方に存在する。
OffensiveLangはコミュニティベースの暗黙的な攻撃的な言語データセットである。
本稿では、暗黙の攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-04T20:34:58Z) - Muted: Multilingual Targeted Offensive Speech Identification and
Visualization [15.656203119337436]
Muted は多言語 HAP の内容を特定するシステムであり,その強度を示すために熱マップを用いて攻撃的引数とそのターゲットを表示する。
本稿では,攻撃的スパンとその対象を既存のデータセットで識別する上でのモデルの性能と,ドイツ語のテキストに新たなアノテーションを提示する。
論文 参考訳(メタデータ) (2023-12-18T16:50:27Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss [1.7267596343997798]
攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
論文 参考訳(メタデータ) (2021-11-12T19:50:24Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - SOLID: A Large-Scale Semi-Supervised Dataset for Offensive Language
Identification [34.57343857418401]
近年,攻撃的言語識別のための分類法であるOLIDデータセットが提案されている。
本研究では、より原則的な方法でツイートを収集する拡張データセットであるSOLIDを提案する。
SOLIDとOLIDを併用すると、2つの異なるモデルに対するOLIDテストセットにおいて大きな性能向上が得られることを示す。
論文 参考訳(メタデータ) (2020-04-29T20:02:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。