論文の概要: Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective
- arxiv url: http://arxiv.org/abs/2510.15007v1
- Date: Thu, 16 Oct 2025 06:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.314723
- Title: Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective
- Title(参考訳): 大規模言語モデルにおける毒性評価の再考:マルチラベルの視点から
- Authors: Zhiqiang Kou, Junyang Chen, Xin-Qiang Cai, Ming-Kun Xie, Biao Liu, Changwei Wang, Lei Feng, Yuheng Jia, Gang Niu, Masashi Sugiyama, Xin Geng,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
- 参考スコア(独自算出の注目度): 104.09817371557476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive results across a range of natural language processing tasks, but their potential to generate harmful content has raised serious safety concerns. Current toxicity detectors primarily rely on single-label benchmarks, which cannot adequately capture the inherently ambiguous and multi-dimensional nature of real-world toxic prompts. This limitation results in biased evaluations, including missed toxic detections and false positives, undermining the reliability of existing detectors. Additionally, gathering comprehensive multi-label annotations across fine-grained toxicity categories is prohibitively costly, further hindering effective evaluation and development. To tackle these issues, we introduce three novel multi-label benchmarks for toxicity detection: \textbf{Q-A-MLL}, \textbf{R-A-MLL}, and \textbf{H-X-MLL}, derived from public toxicity datasets and annotated according to a detailed 15-category taxonomy. We further provide a theoretical proof that, on our released datasets, training with pseudo-labels yields better performance than directly learning from single-label supervision. In addition, we develop a pseudo-label-based toxicity detection method. Extensive experimental results show that our approach significantly surpasses advanced baselines, including GPT-4o and DeepSeek, thus enabling more accurate and reliable evaluation of multi-label toxicity in LLM-generated content.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな自然言語処理タスクにおいて目覚ましい結果を得たが、有害なコンテンツを生成する可能性には深刻な安全上の懸念が持ち上がっている。
現在の毒性検出器は主にシングルラベルのベンチマークに依存しており、現実世界の有害なプロンプトの本質的に曖昧で多次元の性質を適切に捉えることはできない。
この制限により、毒性検出の欠如や偽陽性などのバイアス評価が行われ、既存の検出器の信頼性が損なわれる。
さらに、きめ細かい毒性カテゴリーにまたがる包括的なマルチラベルアノテーションの収集は、費用が極端にかかるため、効果的な評価や開発を妨げている。
これらの課題に対処するため, 毒性検出のための新しいベンチマークを3つ導入した。
さらに、リリースしたデータセットでは、擬似ラベルによるトレーニングがシングルラベルの監督から直接学習するよりも優れたパフォーマンスが得られるという理論的証明も提供します。
さらに,擬似ラベルに基づく毒性検出法を開発した。
GPT-4oやDeepSeekなど,高度なベースラインをはるかに上回り,LCM生成コンテンツにおける多ラベル毒性のより正確かつ信頼性の高い評価を可能にした。
関連論文リスト
- Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - ShieldVLM: Safeguarding the Multimodal Implicit Toxicity via Deliberative Reasoning with LVLMs [72.8646625127485]
マルチモーダルな暗黙の毒性は、社会プラットフォームにおける形式的なステートメントとしてだけでなく、有害なダイアログにつながる可能性がある。
単調なテキストや画像のモデレーションの成功にもかかわらず、多モーダルな内容、特に多モーダルな暗黙的な毒性に対する毒性の検出は未発見のままである。
マルチモーダルな暗黙的毒性の検出を促進するために,多モーダルな文,プロンプト,ダイアログにおける暗黙的な毒性を認識するモデルであるShieldVLMを構築した。
論文 参考訳(メタデータ) (2025-05-20T07:31:17Z) - Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA [0.0]
このデータセットは、LLaVA事前トレーニングデータセットにおいて、有害な画像テキストペアの7,531を除去する。
堅牢な毒性検出パイプラインを実装するためのガイドラインを提供する。
論文 参考訳(メタデータ) (2025-05-09T18:01:50Z) - Aligned Probing: Relating Toxic Behavior and Model Internals [78.20380492883022]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。
本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。
以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文 参考訳(メタデータ) (2025-03-17T17:23:50Z) - How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [0.5597620745943381]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。
毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。
我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
論文 参考訳(メタデータ) (2025-01-03T10:08:49Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity
Detection Through Feedback [0.0]
本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。
これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T11:56:42Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。