Fugu-MT 論文翻訳(概要): Facilitating Fine-grained Detection of Chinese Toxic Language: Hierarchical Taxonomy, Resources, and Benchmarks

論文の概要: Facilitating Fine-grained Detection of Chinese Toxic Language: Hierarchical Taxonomy, Resources, and Benchmarks

arxiv url: http://arxiv.org/abs/2305.04446v1
Date: Mon, 8 May 2023 03:50:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 15:45:41.123500
Title: Facilitating Fine-grained Detection of Chinese Toxic Language: Hierarchical Taxonomy, Resources, and Benchmarks
Title（参考訳）: 中国有毒言語における微粒度検出の促進 : 階層分類、資源、ベンチマーク
Authors: Junyu Lu, Bo Xu, Xiaokun Zhang, Changrong Min, Liang Yang, Hongfei Lin
Abstract要約: 既存のデータセットには、有害な型や表現の詳細なアノテーションがない。ポストの毒性を検出するために語彙的知識を導入することが重要である。本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
参考スコア（独自算出の注目度）: 18.44630180661091
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The widespread dissemination of toxic online posts is increasingly damaging to society. However, research on detecting toxic language in Chinese has lagged significantly. Existing datasets lack fine-grained annotation of toxic types and expressions, and ignore the samples with indirect toxicity. In addition, it is crucial to introduce lexical knowledge to detect the toxicity of posts, which has been a challenge for researchers. In this paper, we facilitate the fine-grained detection of Chinese toxic language. First, we built Monitor Toxic Frame, a hierarchical taxonomy to analyze toxic types and expressions. Then, a fine-grained dataset ToxiCN is presented, including both direct and indirect toxic samples. We also build an insult lexicon containing implicit profanity and propose Toxic Knowledge Enhancement (TKE) as a benchmark, incorporating the lexical feature to detect toxic language. In the experimental stage, we demonstrate the effectiveness of TKE. After that, a systematic quantitative and qualitative analysis of the findings is given.
Abstract（参考訳）: 有害なオンライン投稿の普及が社会に打撃を与えつつある。しかし、中国語で有毒な言語を検出する研究は大幅に遅れている。既存のデータセットには、毒性のあるタイプや表現の細かいアノテーションがなく、間接毒性のあるサンプルを無視する。また,ポストの毒性を検出するには語彙知識の導入が不可欠であり,研究者にとって課題となっている。本稿では,中国における有害言語の検出を容易にする。まず,有毒なタイプや表現を分析するための階層分類法である monitor toxic frame を構築した。そして、直接および間接的な有毒なサンプルを含む詳細なデータセットToxiCNを示す。また,暗黙の誇張を含む侮辱的語彙を構築し,有害な言語を検出するために語彙的特徴を取り入れたTKE(Toxic Knowledge Enhancement)をベンチマークとして提案する。実験段階では,TKEの有効性を実証する。その後, 系統的な定量的, 質的な分析を行った。

関連論文リスト

Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
Enhancing LLM-based Hatred and Toxicity Detection with Meta-Toxic Knowledge Graph [36.07351851458233]
ドメイン固有の有毒な知識の欠如は、偽陰性を引き起こす。有害な音声に対する大規模言語モデルの過度な感度は、偽陽性をもたらす。メタ有害知識グラフ上でのグラフ検索を利用して,憎悪や毒性を検出するメタトックスと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-17T06:28:28Z)
FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。 LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文参考訳（メタデータ） (2024-06-25T14:02:11Z)
PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文参考訳（メタデータ） (2024-05-15T14:22:33Z)
Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文参考訳（メタデータ） (2024-02-10T07:55:27Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文参考訳（メタデータ） (2022-12-20T18:50:00Z)
Toxicity in Multilingual Machine Translation at Scale [3.4620477930009472]
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。自動毒性評価は、言語間での毒性が0%から5%に変化することを示している。有害度が最も高い出力言語は低リソースの言語であり、最も高い毒性を持つ人口軸は性的指向、性別、性別、能力である。
論文参考訳（メタデータ） (2022-10-06T17:26:27Z)
Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文参考訳（メタデータ） (2021-11-19T13:57:26Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文参考訳（メタデータ） (2021-01-29T22:03:17Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。