論文の概要: Detect All Abuse! Toward Universal Abusive Language Detection Models
- arxiv url: http://arxiv.org/abs/2010.03776v2
- Date: Fri, 9 Oct 2020 10:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:06:53.111925
- Title: Detect All Abuse! Toward Universal Abusive Language Detection Models
- Title(参考訳): すべての虐待を検知!
普遍的虐待言語検出モデルに向けて
- Authors: Kunze Wang, Dong Lu, Soyeon Caren Han, Siqu Long, Josiah Poon
- Abstract要約: 我々は、さまざまなドメインにわたる複数のALDタスクに対処できる新しい汎用ALDフレームワークMACASを紹介する。
本フレームワークは,乱用言語のターゲットと内容を表す多面的乱用言語埋め込みを網羅する。
そこで我々は,多面的な乱用言語を受け入れるために,クロスアテンションゲートフロー機構を提案し,利用した。
- 参考スコア(独自算出の注目度): 5.840117063192334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online abusive language detection (ALD) has become a societal issue of
increasing importance in recent years. Several previous works in online ALD
focused on solving a single abusive language problem in a single domain, like
Twitter, and have not been successfully transferable to the general ALD task or
domain. In this paper, we introduce a new generic ALD framework, MACAS, which
is capable of addressing several types of ALD tasks across different domains.
Our generic framework covers multi-aspect abusive language embeddings that
represent the target and content aspects of abusive language and applies a
textual graph embedding that analyses the user's linguistic behaviour. Then, we
propose and use the cross-attention gate flow mechanism to embrace multiple
aspects of abusive language. Quantitative and qualitative evaluation results
show that our ALD algorithm rivals or exceeds the six state-of-the-art ALD
algorithms across seven ALD datasets covering multiple aspects of abusive
language and different online community domains.
- Abstract(参考訳): オンライン虐待言語検出(ALD)は近年重要度が高まっている社会問題となっている。
オンラインaldの以前のいくつかの作品は、twitterのような単一のドメインで単一の乱用言語問題を解決することに重点を置いており、一般的なaldタスクやドメインへの転送に成功していない。
本稿では,複数のドメインにまたがる複数のALDタスクに対処可能な新しい汎用ALDフレームワークMACASを紹介する。
汎用フレームワークは、乱用言語のターゲットとコンテンツの側面を表現するマルチスペクトル乱用言語埋め込みを対象とし、ユーザの言語行動を分析するテキストグラフ埋め込みを適用する。
そこで我々は,多面的な乱用言語を受け入れるために,クロスアテンションゲートフロー機構を提案する。
定量的・質的評価の結果,我々のaldアルゴリズムは,乱用言語と異なるオンラインコミュニティドメインの複数の側面をカバーする7つのaldデータセットにまたがる6つの最先端aldアルゴリズムに匹敵する,あるいは匹敵することを示した。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - LexGen: Domain-aware Multilingual Lexicon Generation [40.97738267067852]
マルチドメイン設定で6つのインド語のための辞書語を生成する新しいモデルを提案する。
私たちのモデルは、情報をエンコードするドメイン固有層とドメイン生成層で構成されています。
8つの異なるドメインにまたがる6つのインドの言語を対象とした新しいベンチマークデータセットをリリースしました。
論文 参考訳(メタデータ) (2024-05-18T07:02:43Z) - Vicinal Risk Minimization for Few-Shot Cross-lingual Transfer in Abusive
Language Detection [19.399281609371258]
高リソースから中低リソース言語への言語間変換学習は、励みのよい結果を示している。
我々は、言語間乱用言語検出を改善するために、ドメイン適応のためのデータ拡張と継続事前学習を利用する。
論文 参考訳(メタデータ) (2023-11-03T16:51:07Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Data Bootstrapping Approaches to Improve Low Resource Abusive Language
Detection for Indic Languages [5.51252705016179]
Indic言語における多言語乱用音声の大規模分析を実演する。
本研究では,異なる言語間伝達機構について検討し,様々な多言語モデルによる虐待的音声検出の性能について検討する。
論文 参考訳(メタデータ) (2022-04-26T18:56:01Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - MACRONYM: A Large-Scale Dataset for Multilingual and Multi-Domain
Acronym Extraction [66.60031336330547]
様々なNLPアプリケーションには、頭字語とその拡張形式が必要である。
既存のAE研究の限界の1つは、それらが英語と特定のドメインに限定されていることである。
複数の言語やドメインにアノテートされたデータセットが欠落することは、この分野の研究を妨げる大きな問題となっている。
論文 参考訳(メタデータ) (2022-02-19T23:08:38Z) - MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination [96.91091607251526]
本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-02T12:24:48Z) - Aggressive Language Detection with Joint Text Normalization via
Adversarial Multi-task Learning [31.02484600391725]
攻撃的言語検出(ALD)はNLPコミュニティにおいて重要な応用の1つである。
本研究では,テキスト正規化(TN)を相反するマルチタスク学習フレームワークを用いて共同で行うことにより,ALDの改善を目標とする。
論文 参考訳(メタデータ) (2020-09-19T06:26:07Z) - Joint Modelling of Emotion and Abusive Language Detection [26.18171134454037]
マルチタスク学習フレームワークを用いて,感情と虐待的言語検出の最初のジョイントモデルを提案する。
その結果、感情的特徴を取り入れることで、データセット間での悪用検出性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-05-28T14:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。