論文の概要: Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework
and Semantic-Based Metric
- arxiv url: http://arxiv.org/abs/2402.06900v1
- Date: Sat, 10 Feb 2024 07:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:42:39.858836
- Title: Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework
and Semantic-Based Metric
- Title(参考訳): LLMは毒性を認識するか?
構造的毒性調査フレームワークと意味論的基準
- Authors: Hyukhun Koh, Dohyung Kim, Minwoo Lee, and Kyomin Jung
- Abstract要約: 本稿では,Large Language Models (LLMs) に基づく自動ロバストメトリックを導入し,モデル応答が有害かどうかを識別する。
評価データセットを用いて、我々の測定値であるLLMs As ToxiciTy Evaluators (LATTE)を評価する。
実験結果から, 毒性測定の成績は良好であり, F1スコアの12ポイント向上した。
- 参考スコア(独自算出の注目度): 16.423707276483178
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the pursuit of developing Large Language Models (LLMs) that adhere to
societal standards, it is imperative to discern the existence of toxicity in
the generated text. The majority of existing toxicity metrics rely on encoder
models trained on specific toxicity datasets. However, these encoders are
susceptible to out-of-distribution (OOD) problems and depend on the definition
of toxicity assumed in a dataset. In this paper, we introduce an automatic
robust metric grounded on LLMs to distinguish whether model responses are
toxic. We start by analyzing the toxicity factors, followed by examining the
intrinsic toxic attributes of LLMs to ascertain their suitability as
evaluators. Subsequently, we evaluate our metric, LLMs As ToxiciTy Evaluators
(LATTE), on evaluation datasets.The empirical results indicate outstanding
performance in measuring toxicity, improving upon state-of-the-art metrics by
12 points in F1 score without training procedure. We also show that upstream
toxicity has an influence on downstream metrics.
- Abstract(参考訳): 社会標準に準拠した大規模言語モデル (LLM) の開発において, 生成したテキストの毒性の存在を識別することが不可欠である。
既存の毒性指標の大部分は、特定の毒性データセットに基づいてトレーニングされたエンコーダモデルに依存している。
しかし、これらのエンコーダはout-of-distribution (ood)問題に影響を受けやすく、データセットで想定される毒性の定義に依存する。
本稿では, モデル応答が有害かどうかを識別するために, LLMを基盤とした自動ロバスト計量を導入する。
まず, 毒性因子を解析し, その後, LLMの内因性毒性特性を調べ, その妥当性を確認した。
その後, 評価データセット上では, llmsを毒性評価装置(latte)として評価し, 実験結果から, f1スコアの12ポイント向上, 有毒度測定において有意な成績を示した。
また、上流の毒性が下流の指標に影響を及ぼすことを示す。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。
自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。
LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文 参考訳(メタデータ) (2024-06-25T14:02:11Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Toxicity Inspector: A Framework to Evaluate Ground Truth in Toxicity
Detection Through Feedback [0.0]
本稿では,ヒト・イン・ザ・ループパイプラインを組み込んだ毒性検査フレームワークを提案する。
これは、反復的なフィードバックサイクルを通じて評価者の値を集中させることで、毒性ベンチマークデータセットの信頼性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T11:56:42Z) - Facilitating Fine-grained Detection of Chinese Toxic Language:
Hierarchical Taxonomy, Resources, and Benchmarks [18.44630180661091]
既存のデータセットには、有害な型や表現の詳細なアノテーションがない。
ポストの毒性を検出するために語彙的知識を導入することが重要である。
本稿では,中国語の有害な言語をきめ細かい検出を容易にする。
論文 参考訳(メタデータ) (2023-05-08T03:50:38Z) - Toxicity in Multilingual Machine Translation at Scale [3.4620477930009472]
大規模評価データセット(HOLISTICBIAS, 472k以上の文)を英語から164言語に翻訳する際に, 付加毒性を評価し, 解析した。
自動毒性評価は、言語間での毒性が0%から5%に変化することを示している。
有害度が最も高い出力言語は低リソースの言語であり、最も高い毒性を持つ人口軸は性的指向、性別、性別、能力である。
論文 参考訳(メタデータ) (2022-10-06T17:26:27Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文 参考訳(メタデータ) (2021-09-15T17:27:06Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。