論文の概要: Something Just Like TRuST : Toxicity Recognition of Span and Target
- arxiv url: http://arxiv.org/abs/2506.02326v1
- Date: Mon, 02 Jun 2025 23:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.174421
- Title: Something Just Like TRuST : Toxicity Recognition of Span and Target
- Title(参考訳): TRuSTにそっくりな何か : スパンとターゲットの毒性認識
- Authors: Berk Atil, Namrata Sureddy, Rebecca J. Passonneau,
- Abstract要約: 本稿では毒性検出の改善を目的とした包括的データセットであるTRuSTを紹介する。
我々は、毒性検出、標的群同定、有害スパン抽出について、最先端の大規模言語モデル(LLM)をベンチマークする。
微調整されたモデルは、特定のソーシャルグループではパフォーマンスが低いものの、ゼロショットや少数ショットのプロンプトを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 2.4169078025984825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toxicity in online content, including content generated by language models, has become a critical concern due to its potential for negative psychological and social impact. This paper introduces TRuST, a comprehensive dataset designed to improve toxicity detection that merges existing datasets, and has labels for toxicity, target social group, and toxic spans. It includes a diverse range of target groups such as ethnicity, gender, religion, disability, and politics, with both human/machine-annotated and human machine-generated data. We benchmark state-of-the-art large language models (LLMs) on toxicity detection, target group identification, and toxic span extraction. We find that fine-tuned models consistently outperform zero-shot and few-shot prompting, though performance remains low for certain social groups. Further, reasoning capabilities do not significantly improve performance, indicating that LLMs have weak social reasoning skills.
- Abstract(参考訳): 言語モデルによって生成されたコンテンツを含むオンラインコンテンツの毒性は、ネガティブな心理的・社会的影響の可能性から批判的な関心事となっている。
本稿では、既存のデータセットをマージする毒性検出を改善するために設計された包括的データセットであるTRuSTを紹介する。
民族、性別、宗教、障害、政治などの多様なターゲットグループを含み、人間/機械の注釈付きデータと人為的な機械生成データの両方を含んでいる。
我々は、毒性検出、標的群同定、有害スパン抽出について、最先端の大規模言語モデル(LLM)をベンチマークする。
微調整されたモデルは、特定のソーシャルグループではパフォーマンスが低いものの、ゼロショットや少数ショットのプロンプトを一貫して上回っていることがわかった。
さらに、推論能力は、LLMが社会的推論能力の弱いことを示唆し、性能を著しく向上させるものではない。
関連論文リスト
- GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。
GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文 参考訳(メタデータ) (2025-05-20T08:29:11Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - Analyzing Toxicity in Open Source Software Communications Using Psycholinguistics and Moral Foundations Theory [5.03553492616371]
本稿では,オープンソースソフトウェア(OSS)における有害通信の自動検出のための機械学習によるアプローチについて検討する。
我々は精神言語学のレキシコンとモラル・ファンデーションズ・理論を利用して、OSSコミュニケーションチャネルの2種類の毒性を分析し、コメントとコードレビューを発行する。
道徳的価値を特徴として使うことは言語的手がかりよりも効果的であり、コードレビューデータ中の有害なインスタンスを67.50%、問題コメントを64.83%特定するF1尺度となる。
論文 参考訳(メタデータ) (2024-12-17T17:52:00Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and
Implicit Hate Speech Detection [33.715318646717385]
ToxiGenは、13の少数民族に関する274kの毒性と良心のステートメントの大規模なデータセットである。
このようにマシン生成を制御することで、ToxiGenは暗黙的に有害なテキストを大規模にカバーできる。
有毒な例の94.5%は、ヒトのアノテーターによるヘイトスピーチとしてラベル付けされている。
論文 参考訳(メタデータ) (2022-03-17T17:57:56Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。