論文の概要: Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails
- arxiv url: http://arxiv.org/abs/2309.06415v1
- Date: Fri, 8 Sep 2023 03:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 11:50:58.531444
- Title: Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails
- Title(参考訳): 有毒ウサギの穴を壊す:palm 2ガードレールの調査
- Authors: Adel Khorramrouz and Sujan Dutta and Arka Dutta and Ashiqur R.
KhudaBukhsh
- Abstract要約: 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。
その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。
当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容(いくつかはリストに記載されている)が明らかにされている。
- 参考スコア(独自算出の注目度): 12.378118209353245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper conducts a robustness audit of the safety feedback of PaLM 2
through a novel toxicity rabbit hole framework introduced here. Starting with a
stereotype, the framework instructs PaLM 2 to generate more toxic content than
the stereotype. Every subsequent iteration it continues instructing PaLM 2 to
generate more toxic content than the previous iteration until PaLM 2 safety
guardrails throw a safety violation. Our experiments uncover highly disturbing
antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few)
generated content that PaLM 2 safety guardrails do not evaluate as highly
unsafe.
- Abstract(参考訳): 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。
ステレオタイプから始めて、このフレームワークは PaLM 2 にステレオタイプよりも有害なコンテンツを生成するよう指示する。
その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。
当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容がいくつか見出されている。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Bias in News Summarization: Measures, Pitfalls and Corpora [4.917075909999548]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。
目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。
単一文書要約におけるコンテンツ選択は、性バイアスの影響をほとんど受けていないが、幻覚は偏見の証拠である。
論文 参考訳(メタデータ) (2023-09-14T22:20:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Mitigating Racial Biases in Toxic Language Detection with an
Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。
これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。
提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文 参考訳(メタデータ) (2021-09-27T15:54:05Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for
Multiple Toxic Span Extraction from Online Comments [1.332560004325655]
本稿では,SemEval-2021 Task 5: Toxic Spans DetectionのためのチームCiscoによって提案されたシステムについて述べる。
我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。
このアプローチにおける最高のパフォーマンスアーキテクチャもまた、F1スコア0.6922で、全体として最高のパフォーマンスアーキテクチャであることを証明しました。
論文 参考訳(メタデータ) (2021-05-28T16:27:49Z) - Toxic Language Detection in Social Media for Brazilian Portuguese: New
Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。
より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文 参考訳(メタデータ) (2020-10-09T13:05:19Z) - Examining Racial Bias in an Online Abuse Corpus with Structural Topic
Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。
我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文 参考訳(メタデータ) (2020-05-26T21:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。