論文の概要: How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models
- arxiv url: http://arxiv.org/abs/2501.01741v1
- Date: Fri, 03 Jan 2025 10:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:42.725208
- Title: How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models
- Title(参考訳): トキシックはどうやって手に入るのか? 大規模言語モデルのための検索ベースの毒性テスト
- Authors: Simone Corbo, Luca Bancale, Valeria De Gennaro, Livia Lestingi, Vincenzo Scotti, Matteo Camilli,
- Abstract要約: 大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。
毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。
我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
- 参考スコア(独自算出の注目度): 0.5597620745943381
- License:
- Abstract: Language is a deep-rooted means of perpetration of stereotypes and discrimination. Large Language Models (LLMs), now a pervasive technology in our everyday lives, can cause extensive harm when prone to generating toxic responses. The standard way to address this issue is to align the LLM, which, however, dampens the issue without constituting a definitive solution. Therefore, testing LLM even after alignment efforts remains crucial for detecting any residual deviations with respect to ethical standards. We present EvoTox, an automated testing framework for LLMs' inclination to toxicity, providing a way to quantitatively assess how much LLMs can be pushed towards toxic responses even in the presence of alignment. The framework adopts an iterative evolution strategy that exploits the interplay between two LLMs, the System Under Test (SUT) and the Prompt Generator steering SUT responses toward higher toxicity. The toxicity level is assessed by an automated oracle based on an existing toxicity classifier. We conduct a quantitative and qualitative empirical evaluation using four state-of-the-art LLMs as evaluation subjects having increasing complexity (7-13 billion parameters). Our quantitative evaluation assesses the cost-effectiveness of four alternative versions of EvoTox against existing baseline methods, based on random search, curated datasets of toxic prompts, and adversarial attacks. Our qualitative assessment engages human evaluators to rate the fluency of the generated prompts and the perceived toxicity of the responses collected during the testing sessions. Results indicate that the effectiveness, in terms of detected toxicity level, is significantly higher than the selected baseline methods (effect size up to 1.0 against random search and up to 0.99 against adversarial attacks). Furthermore, EvoTox yields a limited cost overhead (from 22% to 35% on average).
- Abstract(参考訳): 言語は、ステレオタイプと差別の迫害を深く根ざした手段である。
大規模言語モデル(LLMs)は、今や私たちの日常生活で広く普及している技術であり、有害な反応を引き起こす傾向にある場合、広範囲の害を引き起こす可能性がある。
この問題に対処する標準的な方法は LLM の整合性にあるが、決定的な解決策を構成することなく問題を抑えることである。
したがって, 倫理基準に対する残留偏差を検出するためには, 調整作業後もLCMの試験が不可欠である。
EvoTox は LLM の毒性に対する傾きの自動テストフレームワークであり, 配向の有無があっても LLM が有害反応に向かってどれだけの速度で推し進めるかを定量的に評価する方法を提供する。
このフレームワークは、システムアンダーテスト(SUT)とプロンプトジェネレータ(Pmpt Generator)の2つのLLM間の相互作用を利用して、より毒性の高いSUT反応を操る反復進化戦略を採用している。
毒性レベルは、既存の毒性分類器に基づいて、自動化されたオラクルによって評価される。
複雑度の高い評価対象(7~13億のパラメータ)として,4つの最先端LCMを用いて定量的,定性的な評価を行う。
提案手法は, ランダム検索, 有毒なプロンプトのキュレートされたデータセット, 敵攻撃に基づいて, 既存のベースライン法に対する4種類のEvoToxの費用対効果を定量的に評価する。
質的評価では, 被験者が生成したプロンプトの流速と, テストセッション中に収集した反応の毒性を評価する。
その結果, 検出された毒性レベルは, 選択された基準法よりも有意に高い(ランダム探索に対する最大1.0倍, 敵攻撃に対する最大0.99倍)。
さらに、EvoToxはコストオーバーヘッドが制限されている(平均で22%から35%)。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Can LLMs Recognize Toxicity? A Structured Investigation Framework and Toxicity Metric [16.423707276483178]
本稿では,Large Language Models (LLMs) に基づくロバストなメトリクスを導入し,与えられた定義に従って毒性を柔軟に測定する。
以上の結果から,F1スコアの従来の指標を12ポイント改善し,有毒度を測定できることが示唆された。
論文 参考訳(メタデータ) (2024-02-10T07:55:27Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - Detoxifying Text with MaRCo: Controllable Revision with Experts and
Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。
MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。
我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文 参考訳(メタデータ) (2022-12-20T18:50:00Z) - Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。
安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。
我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文 参考訳(メタデータ) (2021-09-15T17:27:06Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。