Fugu-MT 論文翻訳(概要): RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios?

論文の概要: RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios?

arxiv url: http://arxiv.org/abs/2404.14397v1
Date: Mon, 22 Apr 2024 17:56:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 12:58:23.873202
Title: RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios?
Title（参考訳）: RTP-LX:LLMは多言語シナリオにおける毒性を評価することができるか?
Authors: Adrian de Wynter, Ishaan Watts, Nektar Ege Altıntoprak, Tua Wongsangaroonsri, Minghui Zhang, Noura Farra, Lena Baur, Samantha Claudet, Pavel Gajdusek, Can Gören, Qilong Gu, Anna Kaminska, Tomasz Kaminski, Ruby Kuo, Akiko Kyuba, Jongho Lee, Kartik Mathur, Petter Merok, Ivana Milovanović, Nani Paananen, Vesa-Matti Paananen, Anna Pavlenko, Bruno Pereira Vidal, Luciano Strika, Yueh Tsao, Davide Turcato, Oleksandr Vakhno, Judit Velcsov, Anna Vickers, Stéphanie Visser, Herdyan Widarmanto, Andrey Zaikin, Si-Qing Chen,
Abstract要約: RTP-LXは,28言語で有毒なプロンプトとアウトプットのコーパスである。文化的に感受性のある多言語シナリオで有害なコンテンツを検出する能力について,7つの大規模言語モデル (LLM) を評価した。通常は正確さで評価されるが、プロンプトの毒性を公平に判断する際、人間の判断とはあまり一致しない。
参考スコア（独自算出の注目度）: 14.323879523807067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) and small language models (SLMs) are being adopted at remarkable speed, although their safety still remains a serious concern. With the advent of multilingual S/LLMs, the question now becomes a matter of scale: can we expand multilingual safety evaluations of these models with the same velocity at which they are deployed? To this end we introduce RTP-LX, a human-transcreated and human-annotated corpus of toxic prompts and outputs in 28 languages. RTP-LX follows participatory design practices, and a portion of the corpus is especially designed to detect culturally-specific toxic language. We evaluate seven S/LLMs on their ability to detect toxic content in a culturally-sensitive, multilingual scenario. We find that, although they typically score acceptably in terms of accuracy, they have low agreement with human judges when judging holistically the toxicity of a prompt, and have difficulty discerning harm in context-dependent scenarios, particularly with subtle-yet-harmful content (e.g. microagressions, bias). We release of this dataset to contribute to further reduce harmful uses of these models and improve their safe deployment.
Abstract（参考訳）: 大きな言語モデル(LLM)と小さな言語モデル(SLM)は目覚ましいスピードで採用されているが、その安全性は依然として深刻な懸念である。マルチリンガルS/LLMの出現により、現在ではスケールの問題となっている。これらのモデルのマルチリンガル安全性評価を、それらが展開されるのと同じ速度で拡張できるだろうか? RTP-LXは28言語で有毒なプロンプトとアウトプットのコーパスである。 RTP-LXは参加型デザインの慣行に従っており、コーパスの一部は特に文化的に特異的な有毒な言語を検出するように設計されている。文化的に感受性のある多言語シナリオで有害な内容を検出する能力について7つのS/LLMを評価した。一般的には精度で評価されるが、プロンプトの毒性を均等に判断する際、人間の判断とはあまり一致せず、文脈に依存したシナリオ、特に微妙なyet-harmfulコンテンツ(例えばマイクロアグレッション、バイアス)では害を見分けるのが困難である。このデータセットは、これらのモデルの有害な使用をさらに削減し、安全なデプロイメントを改善するのに役立ちます。

関連論文リスト

Toxicity-Aware Few-Shot Prompting for Low-Resource Singlish Translation [3.7678366606419345]
低リソースの言語ペア間の有害な内容の翻訳は、攻撃的な表現を衛生化するための並列データと安全フィルタの不足による課題を提起する。コードミキシングされたSinglishセーフティコーパス上で実証された毒性保存翻訳のための2段階のフレームワークを提案する。我々は,Singlishを包括的NLPテストベッドとして位置づけることにより,実世界の応用における社会言語的ニュアンスを維持することの重要性を強調した。
論文参考訳（メタデータ） (2025-07-16T06:58:02Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-10-29T15:51:24Z)
FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts [13.470734853274587]
大規模言語モデル(LLM)はますます普及しているが、バイアス、有害、有害な言語を生み出す傾向にある。自然発生のフランスプロンプト50Kのデータセットである FrenchToxicityPrompts を作成した。 LLMの4つの主要なオープンソースファミリから14の異なるモデルを評価し,その毒性を評価する。
論文参考訳（メタデータ） (2024-06-25T14:02:11Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。 PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文参考訳（メタデータ） (2024-05-15T14:22:33Z)
From One to Many: Expanding the Scope of Toxicity Mitigation in Language Models [10.807067327137855]
言語モデルが多言語機能を取り入れているため、私たちの安全対策はペースを保ちます。言語間で十分なアノテートされたデータセットがないため、私たちは翻訳データを用いて緩和手法を評価し、強化する。これにより,翻訳品質と言語間移動が毒性軽減に及ぼす影響を検討することができる。
論文参考訳（メタデータ） (2024-03-06T17:51:43Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文参考訳（メタデータ） (2022-03-18T12:26:37Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文参考訳（メタデータ） (2020-10-09T13:05:19Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。