Fugu-MT 論文翻訳(概要): Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails

論文の概要: Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails

arxiv url: http://arxiv.org/abs/2309.06415v2
Date: Mon, 18 Sep 2023 16:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 21:54:58.218493
Title: Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails
Title（参考訳）: 有毒ウサギの穴を壊す:palm 2ガードレールの調査
Authors: Adel Khorramrouz and Sujan Dutta and Arka Dutta and Ashiqur R. KhudaBukhsh
Abstract要約: 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容(いくつかはリストに記載されている)が明らかにされている。
参考スコア（独自算出の注目度）: 12.378118209353245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper conducts a robustness audit of the safety feedback of PaLM 2 through a novel toxicity rabbit hole framework introduced here. Starting with a stereotype, the framework instructs PaLM 2 to generate more toxic content than the stereotype. Every subsequent iteration it continues instructing PaLM 2 to generate more toxic content than the previous iteration until PaLM 2 safety guardrails throw a safety violation. Our experiments uncover highly disturbing antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few) generated content that PaLM 2 safety guardrails do not evaluate as highly unsafe.
Abstract（参考訳）: 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。ステレオタイプから始めて、このフレームワークは PaLM 2 にステレオタイプよりも有害なコンテンツを生成するよう指示する。その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容がいくつか見出されている。

関連論文リスト

Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。 HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文参考訳（メタデータ） (2025-11-14T03:00:04Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Bias in News Summarization: Measures, Pitfalls and Corpora [4.917075909999548]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。単一文書要約におけるコンテンツ選択は、性バイアスの影響をほとんど受けていないが、幻覚は偏見の証拠である。
論文参考訳（メタデータ） (2023-09-14T22:20:27Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
A Keyword Based Approach to Understanding the Overpenalization of Marginalized Groups by English Marginal Abuse Models on Twitter [2.9604738405097333]
有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
論文参考訳（メタデータ） (2022-10-07T20:28:00Z)
COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文参考訳（メタデータ） (2022-01-16T11:47:23Z)
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文参考訳（メタデータ） (2021-11-15T18:58:20Z)
Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文参考訳（メタデータ） (2021-09-27T15:54:05Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for Multiple Toxic Span Extraction from Online Comments [1.332560004325655]
本稿では,SemEval-2021 Task 5: Toxic Spans DetectionのためのチームCiscoによって提案されたシステムについて述べる。我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。このアプローチにおける最高のパフォーマンスアーキテクチャもまた、F1スコア0.6922で、全体として最高のパフォーマンスアーキテクチャであることを証明しました。
論文参考訳（メタデータ） (2021-05-28T16:27:49Z)
Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文参考訳（メタデータ） (2020-10-09T13:05:19Z)
Examining Racial Bias in an Online Abuse Corpus with Structural Topic Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文参考訳（メタデータ） (2020-05-26T21:02:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。