論文の概要: AustroTox: A Dataset for Target-Based Austrian German Offensive Language Detection
- arxiv url: http://arxiv.org/abs/2406.08080v1
- Date: Wed, 12 Jun 2024 11:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:24:58.028410
- Title: AustroTox: A Dataset for Target-Based Austrian German Offensive Language Detection
- Title(参考訳): AustroTox: オーストリア系オーストリア人攻撃言語検出のためのデータセット
- Authors: Pia Pachinger, Janis Goldzycher, Anna Maria Planitzer, Wojciech Kusa, Allan Hanbury, Julia Neidhardt,
- Abstract要約: 我々は,オーストリアドイツ語方言の組み入れで有名なニュースフォーラムから得られた攻撃的言語検出のためのデータセットを紹介した。
我々は、下品な言語を構成する各コメント内のスパンを識別し、攻撃的発言のターゲットを表す。
ゼロショットおよび少数ショット方式で、微調整言語モデルだけでなく、大規模言語モデルも評価する。
- 参考スコア(独自算出の注目度): 5.553675226709512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model interpretability in toxicity detection greatly profits from token-level annotations. However, currently such annotations are only available in English. We introduce a dataset annotated for offensive language detection sourced from a news forum, notable for its incorporation of the Austrian German dialect, comprising 4,562 user comments. In addition to binary offensiveness classification, we identify spans within each comment constituting vulgar language or representing targets of offensive statements. We evaluate fine-tuned language models as well as large language models in a zero- and few-shot fashion. The results indicate that while fine-tuned models excel in detecting linguistic peculiarities such as vulgar dialect, large language models demonstrate superior performance in detecting offensiveness in AustroTox. We publish the data and code.
- Abstract(参考訳): 毒性検出におけるモデル解釈可能性はトークンレベルのアノテーションから大いに利益を得る。
しかし、このアノテーションは英語でしか利用できない。
我々は,4,562人のユーザコメントを含むオーストリアドイツ語方言を組み込んだことで有名な,ニュースフォーラムから得られた攻撃的言語検出のためのデータセットを紹介した。
二項攻撃性分類の他に、下品語を構成する各コメント内のスパンを識別したり、攻撃的発言のターゲットを表す。
ゼロショットおよび少数ショット方式で、微調整言語モデルだけでなく、大規模言語モデルも評価する。
以上の結果から,豪華な方言などの言語特異性の検出には微調整モデルが優れているが,オーストロトックスにおける攻撃性の検出には,大きな言語モデルの方が優れていることが示唆された。
データとコードを公開しています。
関連論文リスト
- Muted: Multilingual Targeted Offensive Speech Identification and
Visualization [15.656203119337436]
Muted は多言語 HAP の内容を特定するシステムであり,その強度を示すために熱マップを用いて攻撃的引数とそのターゲットを表示する。
本稿では,攻撃的スパンとその対象を既存のデータセットで識別する上でのモデルの性能と,ドイツ語のテキストに新たなアノテーションを提示する。
論文 参考訳(メタデータ) (2023-12-18T16:50:27Z) - Evaluating the Effectiveness of Natural Language Inference for Hate
Speech Detection in Languages with Limited Labeled Data [2.064612766965483]
ゼロおよび少数ショット設定で良好に機能する自然言語推論(NLI)モデルは、ヘイトスピーチ検出性能の恩恵を受ける。
対象言語における直接微調整よりも,NLI微調整の性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-06-06T14:40:41Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - KOLD: Korean Offensive Language Dataset [11.699797031874233]
韓国の攻撃言語データセット(KOLD)と40kのコメントに,攻撃性,目標,対象とするグループ情報をラベル付けしたコメントを提示する。
タイトル情報は文脈として役立ち、特にコメントで省略された場合、憎悪の対象を識別するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T13:58:45Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。