論文の概要: Red-Teaming for Inducing Societal Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.04756v2
- Date: Wed, 21 May 2025 14:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.602498
- Title: Red-Teaming for Inducing Societal Bias in Large Language Models
- Title(参考訳): 大規模言語モデルにおける社会バイアス誘導のためのレッドチーム
- Authors: Chu Fei Luo, Ahmad Ghawanmeh, Bharat Bhimshetty, Kashyap Murali, Murli Jadhav, Xiaodan Zhu, Faiza Khan Khattak,
- Abstract要約: 有害なコンテンツに対する標準安全対策がバイアスに与える影響を評価するために,2つのバイアス特異的なレッドチーム法を提案する。
我々はこれらの攻撃戦略を用いて、複数のオープンソースおよびクローズドソース言語モデルからバイアス応答を誘導する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
- 参考スコア(独自算出の注目度): 16.289297654694607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the safe deployment of AI systems is critical in industry settings where biased outputs can lead to significant operational, reputational, and regulatory risks. Thorough evaluation before deployment is essential to prevent these hazards. Red-teaming addresses this need by employing adversarial attacks to develop guardrails that detect and reject biased or harmful queries, enabling models to be retrained or steered away from harmful outputs. However, most red-teaming efforts focus on harmful or unethical instructions rather than addressing social bias, leaving this critical area under-explored despite its significant real-world impact, especially in customer-facing systems. We propose two bias-specific red-teaming methods, Emotional Bias Probe (EBP) and BiasKG, to evaluate how standard safety measures for harmful content affect bias. For BiasKG, we refactor natural language stereotypes into a knowledge graph. We use these attacking strategies to induce biased responses from several open- and closed-source language models. Unlike prior work, these methods specifically target social bias. We find our method increases bias in all models, even those trained with safety guardrails. Our work emphasizes uncovering societal bias in LLMs through rigorous evaluation, and recommends measures ensure AI safety in high-stakes industry deployments.
- Abstract(参考訳): AIシステムの安全なデプロイを保証することは、偏りのあるアウトプットが重大な運用上のリスク、評判、規制上のリスクに繋がる業界環境で重要である。
これらの危険を予防するためには、配備前の十分な評価が不可欠である。
Red-teamingはこのニーズに対処するため、敵の攻撃を利用して、バイアスや有害なクエリを検出して拒否するガードレールを開発し、モデルを再訓練したり、有害なアウトプットから遠ざけたりすることを可能にする。
しかしながら、ほとんどの赤チームの取り組みは、社会的偏見に対処するのではなく、有害または非倫理的な指示に焦点を合わせており、特に顧客向けシステムにおいて、現実世界の重大な影響にもかかわらず、この重要な領域は未調査のままである。
本研究では, 有害コンテンツの安全性基準がバイアスに与える影響を評価するために, バイアス特異的な2つの方法, Emotional Bias Probe (EBP) と BiasKGを提案する。
BiasKGでは、自然言語のステレオタイプを知識グラフにリファクタリングする。
我々はこれらの攻撃戦略を用いて、複数のオープンソースおよびクローズドソース言語モデルからバイアス応答を誘導する。
以前の研究とは異なり、これらの手法は特に社会的偏見を標的としている。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
我々の研究は、厳格な評価を通じてLLMの社会的偏見を明らかにすることを強調し、高レベルの産業展開においてAIの安全性を確保することを推奨している。
関連論文リスト
- Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Detecting and Mitigating Bias in LLMs through Knowledge Graph-Augmented Training [2.8402080392117757]
本研究では,大規模言語モデルにおけるバイアスを軽減する新しい手法として,知識グラフ強化訓練(KGAT)について検討する。
バイアスアセスメントのためのパブリックデータセットには、Gender Shades、Bias in Bios、FairFaceがある。
また、バイアス付き関連を補正するためのターゲット緩和戦略も実施し、バイアス付きアウトプットの大幅な低下とバイアス指標の改善につながった。
論文 参考訳(メタデータ) (2025-04-01T00:27:50Z) - Co-occurrence is not Factual Association in Language Models [19.708303468664088]
言語モデルは,真の事実関連性ではなく,単語共起統計の学習に偏りがあることが示される。
本稿では,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-09-21T08:13:16Z) - Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。
これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。
本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文 参考訳(メタデータ) (2024-07-11T12:30:19Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles [2.134057414078079]
大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T23:57:44Z) - On the application of Large Language Models for language teaching and
assessment technology [18.735612275207853]
我々は,AIによる言語教育とアセスメントシステムに大規模言語モデルを導入する可能性を検討する。
より大きな言語モデルは、テキスト生成における以前のモデルよりも改善されていることがわかった。
自動階調と文法的誤り訂正において、よく知られたベンチマークで進捗が確認されたタスクについては、初期の調査では、彼ら自身の大きな言語モデルが最先端の結果を改善していないことが示されている。
論文 参考訳(メタデータ) (2023-07-17T11:12:56Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。