論文の概要: BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.04756v1
- Date: Wed, 8 May 2024 01:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:35:21.327719
- Title: BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models
- Title(参考訳): BiasKG:大規模言語モデルでバイアスを誘発する逆知識グラフ
- Authors: Chu Fei Luo, Ahmad Ghawanmeh, Xiaodan Zhu, Faiza Khan Khattak,
- Abstract要約: 本稿では,知識グラフを付加した言語モデルに対する新たな攻撃手法を提案する。
我々は、自然言語のステレオタイプを知識グラフに誘導し、敵攻撃戦略を使用する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
- 参考スコア(独自算出の注目度): 19.446333438385153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) have a significant amount of world knowledge, which enables strong performance in commonsense reasoning and knowledge-intensive tasks when harnessed properly. The language model can also learn social biases, which has a significant potential for societal harm. There have been many mitigation strategies proposed for LLM safety, but it is unclear how effective they are for eliminating social biases. In this work, we propose a new methodology for attacking language models with knowledge graph augmented generation. We refactor natural language stereotypes into a knowledge graph, and use adversarial attacking strategies to induce biased responses from several open- and closed-source language models. We find our method increases bias in all models, even those trained with safety guardrails. This demonstrates the need for further research in AI safety, and further work in this new adversarial space.
- Abstract(参考訳): 現代の大規模言語モデル (LLM) は、十分な量の世界知識を持ち、コモンセンス推論や知識集約的なタスクを適切に活用することで、高いパフォーマンスを実現している。
言語モデルは、社会的バイアスも学べるが、これは社会的な害をもたらす大きな可能性を秘めている。
LLMの安全性には多くの緩和策が提案されているが、それが社会的偏見の排除にどの程度効果があるかは定かではない。
本研究では,知識グラフを付加した言語モデルに対する新たな手法を提案する。
自然言語のステレオタイプを知識グラフにリファクタリングし、敵攻撃戦略を用いて、複数のオープンソースおよびクローズドソース言語モデルからバイアス応答を誘導する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
これにより、AIの安全性に関するさらなる研究の必要性が示され、この新たな敵空間におけるさらなる研究の必要性が示される。
関連論文リスト
- Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、卓越した計算能力と言語能力を示している。
これらのモデルは本質的に、トレーニングデータから生じる様々なバイアスに起因している。
本研究は,近年のLCMの応答におけるこれらのバイアスの存在について検討し,その公正さと信頼性への影響を分析した。
論文 参考訳(メタデータ) (2024-07-11T12:30:19Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
大規模言語モデルからバイアスのないアウトプットを生成するための現在のアプローチは、バイアスを減らすことができるが、知識の保持を犠牲にしている。
我々は、生成されたテキストのバイアスを減らすために、安全性と応答性大言語モデル(textbfSR$_textLLM$)を開発した。
textbfSR$textLLM$は、バイアスの低減と言語知識の整合性維持の両面において、従来の微調整手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Exploiting Large Language Models (LLMs) through Deception Techniques and Persuasion Principles [2.134057414078079]
大きな言語モデル(LLM)は広く使われるようになり、セキュリティと堅牢性を保証することが重要である。
本稿では,このような大規模言語モデルによる知覚的相互作用に対する活用に焦点を当てた新しい研究を提案する。
以上の結果から,これらの大規模言語モデルが詐欺や社会工学的攻撃の影響を受けやすいことが示唆された。
論文 参考訳(メタデータ) (2023-11-24T23:57:44Z) - On the application of Large Language Models for language teaching and
assessment technology [18.735612275207853]
我々は,AIによる言語教育とアセスメントシステムに大規模言語モデルを導入する可能性を検討する。
より大きな言語モデルは、テキスト生成における以前のモデルよりも改善されていることがわかった。
自動階調と文法的誤り訂正において、よく知られたベンチマークで進捗が確認されたタスクについては、初期の調査では、彼ら自身の大きな言語モデルが最先端の結果を改善していないことが示されている。
論文 参考訳(メタデータ) (2023-07-17T11:12:56Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。