Fugu-MT 論文翻訳(概要): Realistic Evaluation of Toxicity in Large Language Models

論文の概要: Realistic Evaluation of Toxicity in Large Language Models

arxiv url: http://arxiv.org/abs/2405.10659v1
Date: Fri, 17 May 2024 09:42:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 16:22:57.721726
Title: Realistic Evaluation of Toxicity in Large Language Models
Title（参考訳）: 大規模言語モデルにおける毒性の現実的評価
Authors: Tinh Son Luong, Thanh-Thien Le, Linh Ngo Van, Thien Huu Nguyen,
Abstract要約: 大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
参考スコア（独自算出の注目度）: 28.580995165272086
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large language models (LLMs) have become integral to our professional workflows and daily lives. Nevertheless, these machine companions of ours have a critical flaw: the huge amount of data which endows them with vast and diverse knowledge, also exposes them to the inevitable toxicity and bias. While most LLMs incorporate defense mechanisms to prevent the generation of harmful content, these safeguards can be easily bypassed with minimal prompt engineering. In this paper, we introduce the new Thoroughly Engineered Toxicity (TET) dataset, comprising manually crafted prompts designed to nullify the protective layers of such models. Through extensive evaluations, we demonstrate the pivotal role of TET in providing a rigorous benchmark for evaluation of toxicity awareness in several popular LLMs: it highlights the toxicity in the LLMs that might remain hidden when using normal prompts, thus revealing subtler issues in their behavior.
Abstract（参考訳）: 大きな言語モデル(LLM)は、私たちのプロフェッショナルなワークフローや日々の生活に不可欠なものになっています。膨大な量のデータを多種多様な知識で提供し、避けられない毒性や偏見にさらしているのです。ほとんどのLLMは有害なコンテンツの発生を防ぐための防御機構を組み込んでいるが、これらの安全対策は最小限の迅速な技術で容易に回避できる。本稿では,これらのモデルの保護層を無効化するための手作業によるプロンプトを含む,Toroughly Engineered Toxicity (TET)データセットについて紹介する。広範な評価を通じて,本論文では,通常のプロンプトを用いて隠蔽される可能性のあるLSMの毒性について,厳密な評価基準を提供する上で,TETが重要な役割を担っていることを示す。

関連論文リスト

Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention [6.808534332444413]
大きな言語モデル(LLM)は強力なテキストジェネレータである。 LLMは、一見無害なプロンプトが与えられたとしても、有害または有害な内容物を生成することができる。これは深刻な安全性の課題であり、現実世界に害を与える可能性がある。
論文参考訳（メタデータ） (2026-02-06T11:33:17Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
Combating Toxic Language: A Review of LLM-Based Strategies for Software Engineering [0.49157446832511503]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)に不可欠なものとなり、開発にますます使われている。彼らの普及した使用は、排他的環境を育む可能性のある有害なコンテンツ、有害または攻撃的なコンテンツの存在と伝播に関する懸念を提起する。本稿では, 毒性検出と緩和に関する最近の研究を包括的に概観し, SE-specific と general-purpose の両方のデータセットに焦点をあてる。
論文参考訳（メタデータ） (2025-04-21T21:09:33Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文参考訳（メタデータ） (2024-04-25T13:10:48Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
Learning to Poison Large Language Models for Downstream Manipulation [12.521338629194503]
この研究は、教師付き微調整プロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。 In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文参考訳（メタデータ） (2024-02-21T01:30:03Z)
Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models [10.490147336936504]
大規模言語モデル(LLM)は、優れたゼロショットと少数ショットのin-Thought学習能力により、有害なコンテンツ検出を約束している。 BD-LLMは, 毒性物質検出のためのブートストラップ法と蒸留法において, 新規かつ効率的な手法である。
論文参考訳（メタデータ） (2023-12-13T17:22:19Z)
Forcing Generative Models to Degenerate Ones: The Power of Data Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文参考訳（メタデータ） (2023-12-07T23:26:06Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。