Fugu-MT 論文翻訳(概要): Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models

論文の概要: Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models

arxiv url: http://arxiv.org/abs/2309.06415v4
Date: Sun, 31 Mar 2024 02:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 15:34:46.340868
Title: Down the Toxicity Rabbit Hole: A Novel Framework to Bias Audit Large Language Models
Title（参考訳）: 毒性を下げるRabbit Hole:大規模言語モデルを監査するための新しいフレームワーク
Authors: Arka Dutta, Adel Khorramrouz, Sujan Dutta, Ashiqur R. KhudaBukhsh,
Abstract要約: 本研究では, 広範囲にわたる大規模言語モデルから有害な内容を反復的に引き出す, テキスト毒性ウサギ穴という新しい枠組みを提案する。我々は、人種差別、反ユダヤ主義、ミソジニー、イスラム恐怖症、ホモフォビア、トランスフォビアに重点を置いた幅広い分析を行った。
参考スコア（独自算出の注目度）: 11.330830398772582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper makes three contributions. First, it presents a generalizable, novel framework dubbed \textit{toxicity rabbit hole} that iteratively elicits toxic content from a wide suite of large language models. Spanning a set of 1,266 identity groups, we first conduct a bias audit of \texttt{PaLM 2} guardrails presenting key insights. Next, we report generalizability across several other models. Through the elicited toxic content, we present a broad analysis with a key emphasis on racism, antisemitism, misogyny, Islamophobia, homophobia, and transphobia. Finally, driven by concrete examples, we discuss potential ramifications.
Abstract（参考訳）: この論文には3つの貢献がある。まず、幅広い言語モデルから有害な内容を反復的に引き出す「textit{toxicity rabbit hole」と呼ばれる、一般化可能な新しいフレームワークを示す。まず,1,266個の識別グループからなるガードレールのバイアス監査を行い,重要な知見を提示する。次に、他のいくつかのモデルにまたがる一般化可能性について報告する。有害な内容の抽出を通じて、人種差別、反ユダヤ主義、ミソジニー、イスラム恐怖症、ホモフォビア、トランスフォビアに重点を置き、幅広い分析を行う。最後に、具体的な例により、潜在的な影響について論じる。

関連論文リスト

Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。 HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文参考訳（メタデータ） (2025-11-14T03:00:04Z)
A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Bias in News Summarization: Measures, Pitfalls and Corpora [4.917075909999548]
本稿では,要約モデルにおけるバイアス付き行動の定義と実用運用について紹介する。目的合成モデルと汎用チャットモデルの両方で生成された英語要約における性別バイアスを測定する。単一文書要約におけるコンテンツ選択は、性バイアスの影響をほとんど受けていないが、幻覚は偏見の証拠である。
論文参考訳（メタデータ） (2023-09-14T22:20:27Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
A Keyword Based Approach to Understanding the Overpenalization of Marginalized Groups by English Marginal Abuse Models on Twitter [2.9604738405097333]
有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
論文参考訳（メタデータ） (2022-10-07T20:28:00Z)
COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文参考訳（メタデータ） (2022-01-16T11:47:23Z)
Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文参考訳（メタデータ） (2021-11-15T18:58:20Z)
Mitigating Racial Biases in Toxic Language Detection with an Equity-Based Ensemble Framework [9.84413545378636]
最近の研究では、アフリカ系アメリカ人の英語を書いているユーザーに対する人種的偏見が、人気のある有毒な言語データセットに存在することが示されている。これらのバイアスの発生源をよりよく理解するために、さらに説明的公正度指標を提案する。提案手法は,モデルがこれらのデータセットから学習する人種的バイアスを大幅に低減することを示す。
論文参考訳（メタデータ） (2021-09-27T15:54:05Z)
Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文参考訳（メタデータ） (2021-06-15T20:55:55Z)
Mitigating Biases in Toxic Language Detection through Invariant Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文参考訳（メタデータ） (2021-06-14T08:49:52Z)
Cisco at SemEval-2021 Task 5: What's Toxic?: Leveraging Transformers for Multiple Toxic Span Extraction from Online Comments [1.332560004325655]
本稿では,SemEval-2021 Task 5: Toxic Spans DetectionのためのチームCiscoによって提案されたシステムについて述べる。我々は主に、シーケンスタグ付けアプローチと依存性解析アプローチの2つの方法でこの問題に取り組みます。このアプローチにおける最高のパフォーマンスアーキテクチャもまた、F1スコア0.6922で、全体として最高のパフォーマンスアーキテクチャであることを証明しました。
論文参考訳（メタデータ） (2021-05-28T16:27:49Z)
Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis [4.251937086394346]
最先端のBERTモデルでは,バイナリケースのモノリンガルデータを用いて76%のマクロF1スコアを達成できた。より正確なモデルを作成するためには,大規模なモノリンガルデータが依然として必要であることを示す。
論文参考訳（メタデータ） (2020-10-09T13:05:19Z)
Examining Racial Bias in an Online Abuse Corpus with Structural Topic Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文参考訳（メタデータ） (2020-05-26T21:02:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。