Fugu-MT 論文翻訳(概要): PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models

論文の概要: PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models

arxiv url: http://arxiv.org/abs/2405.09373v1
Date: Wed, 15 May 2024 14:22:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 13:16:53.535636
Title: PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models
Title（参考訳）: PolygloToxicity Prompts:大規模言語モデルにおける神経毒性の多言語的評価
Authors: Devansh Jain, Priyanshu Kumar, Samuel Gehman, Xuhui Zhou, Thomas Hartvigsen, Maarten Sap,
Abstract要約: 既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
参考スコア（独自算出の注目度）: 27.996123856250065
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language models (LLMs) have led to their extensive global deployment, and ensuring their safety calls for comprehensive and multilingual toxicity evaluations. However, existing toxicity benchmarks are overwhelmingly focused on English, posing serious risks to deploying LLMs in other languages. We address this by introducing PolygloToxicityPrompts (PTP), the first large-scale multilingual toxicity evaluation benchmark of 425K naturally occurring prompts spanning 17 languages. We overcome the scarcity of naturally occurring toxicity in web-text and ensure coverage across languages with varying resources by automatically scraping over 100M web-text documents. Using PTP, we investigate research questions to study the impact of model size, prompt language, and instruction and preference-tuning methods on toxicity by benchmarking over 60 LLMs. Notably, we find that toxicity increases as language resources decrease or model size increases. Although instruction- and preference-tuning reduce toxicity, the choice of preference-tuning method does not have any significant impact. Our findings shed light on crucial shortcomings of LLM safeguarding and highlight areas for future research.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、その広範なグローバル展開をもたらし、包括的および多言語毒性評価に対する安全性の要求を確実にしている。しかし、既存の毒性ベンチマークは圧倒的に英語に重点を置いており、他の言語にLSMをデプロイする重大なリスクを負っている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生425Kの大規模多言語毒性評価ベンチマークである。我々は、Webテキストに自然に発生する毒性の不足を克服し、1億以上のWebテキスト文書を自動的にスクラップすることで、様々なリソースを持つ言語にまたがるカバレッジを確保する。 PTPを用いて,60 LLMのベンチマークにより,モデルサイズ,プロンプト言語,指示および選好学習法が毒性に及ぼす影響について検討した。特に,言語資源の減少やモデルサイズの増加に伴い,毒性が増大することがわかった。指導・嗜好調整は毒性を低下させるが、選好調整法の選択は大きな影響を与えない。 LLMの安全確保と今後の研究分野のハイライトに光を当てた。

関連論文リスト

Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T06:50:33Z)
<think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs [60.169913160819]
本稿では, 人為的データに代わる合成毒性データを用いた脱毒訓練モデルの可能性について検討する。実験によると、合成データに微調整されたモデルは、人間のデータで訓練されたモデルよりも一貫してパフォーマンスが悪くなっている。根本原因は、致命的な語彙の多様性のギャップとして認識される: LLMは、小さな反復的な侮辱の語彙を用いて、人間の毒性のニュアンスや多様性を捉えるのに失敗する有毒な内容を生成する。
論文参考訳（メタデータ） (2025-09-10T07:48:24Z)
Exploring Multimodal Challenges in Toxic Chinese Detection: Taxonomy, Benchmark, and Findings [48.841514684592426]
我々は、有害な中国語検出に言語モデルをデプロイする上で重要な課題として、中国語のマルチモーダル性を強調した。まず,3つの摂動戦略の分類法と,有毒な中国コンテンツに対する8つの具体的なアプローチを提案する。そして、この分類に基づいてデータセットをキュレートし、9つのSOTA LLM(米国と中国)をベンチマークして、乱れた有毒な漢文を検出できるかどうかを評価する。
論文参考訳（メタデータ） (2025-05-30T08:32:45Z)
Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification [31.7516400680833]
クロス・リンガル・デトキシフィケーション(Cross-lingual Detoxification)は、大規模言語モデルにおいて毒性を緩和するパラダイムである。本研究では, クロスディストリビューション設定における毒性低下を解析し, 非有害タスクに対するモデル性能への影響について検討する。
論文参考訳（メタデータ） (2025-05-22T14:30:14Z)
GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。 GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文参考訳（メタデータ） (2025-05-20T08:29:11Z)
How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [0.5597620745943381]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
論文参考訳（メタデータ） (2025-01-03T10:08:49Z)
Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。 ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文参考訳（メタデータ） (2024-10-05T13:30:33Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。 LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文参考訳（メタデータ） (2024-06-25T14:02:11Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models [10.807067327137855]
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
論文参考訳（メタデータ） (2024-03-06T17:51:43Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Challenges in Detoxifying Language Models [44.48396735574315]
大規模言語モデル(LM)は極めて流動的なテキストを生成し、NLPタスクに効率よく適応できる。安全性の観点から生成したテキストの品質の測定と保証は、実世界におけるLMのデプロイに不可欠である。我々は, 自動評価と人的評価の両方に関して, いくつかの毒性軽減戦略を評価した。
論文参考訳（メタデータ） (2021-09-15T17:27:06Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。