論文の概要: Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs
- arxiv url: http://arxiv.org/abs/2410.24049v2
- Date: Sat, 02 Nov 2024 19:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:21.519488
- Title: Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs
- Title(参考訳): 砂漠のラクダとオイルシーク - アラブ系フロンティアLLMのレッドチーム化
- Authors: Muhammed Saeed, Elgizouli Mohamed, Mukhtar Mohamed, Shaina Raza, Shady Shehata, Muhammad Abdul-Mageed,
- Abstract要約: 大規模言語モデル(LLM)は広く使われているが、社会的バイアスが組み込まれているため倫理的懸念が高まる。
本研究では、女性の権利、テロリズム、反ユダヤ主義を含む8つの領域にわたるアラブ人と西洋人に対するLCMバイアスについて検討する。
GPT-4, GPT-4o, LlaMA 3.1 (8Bおよび405B), Mistral 7B, Claude 3.5 Sonnetの6つのLCMを評価した。
- 参考スコア(独自算出の注目度): 15.432107289828194
- License:
- Abstract: Large language models (LLMs) are widely used but raise ethical concerns due to embedded social biases. This study examines LLM biases against Arabs versus Westerners across eight domains, including women's rights, terrorism, and anti-Semitism and assesses model resistance to perpetuating these biases. To this end, we create two datasets: one to evaluate LLM bias toward Arabs versus Westerners and another to test model safety against prompts that exaggerate negative traits ("jailbreaks"). We evaluate six LLMs -- GPT-4, GPT-4o, LlaMA 3.1 (8B & 405B), Mistral 7B, and Claude 3.5 Sonnet. We find 79% of cases displaying negative biases toward Arabs, with LlaMA 3.1-405B being the most biased. Our jailbreak tests reveal GPT-4o as the most vulnerable, despite being an optimized version, followed by LlaMA 3.1-8B and Mistral 7B. All LLMs except Claude exhibit attack success rates above 87% in three categories. We also find Claude 3.5 Sonnet the safest, but it still displays biases in seven of eight categories. Despite being an optimized version of GPT4, We find GPT-4o to be more prone to biases and jailbreaks, suggesting optimization flaws. Our findings underscore the pressing need for more robust bias mitigation strategies and strengthened security measures in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は広く使われているが、社会的バイアスが組み込まれているため倫理的懸念が高まる。
本研究では、女性の権利、テロリズム、反ユダヤ主義を含む8つの領域にわたるアラブ人と西洋人に対するLCMバイアスを調査し、これらのバイアスを永続させるモデル抵抗を評価する。
この目的のために、私たちは2つのデータセットを作成します。1つは、アラブ人と西洋人に対するLLMバイアスを評価するデータセットと、もう1つは、ネガティブな特性を誇張するプロンプト("jailbreaks")に対するモデルの安全性をテストするデータセットです。
GPT-4, GPT-4o, LlaMA 3.1 (8Bおよび405B), Mistral 7B, Claude 3.5 Sonnetの6つのLCMを評価した。
アラブ人に対する否定的な偏見を示す症例は79%であり、LlaMA 3.1-405Bが最も偏見が強い。
私たちのジェイルブレイクテストでは、最適化されたバージョンであるにもかかわらず、GPT-4oが最も脆弱であることが明らかとなり、LlaMA 3.1-8BとMistral 7Bが続いた。
クロードを除く全てのLSMは、3つのカテゴリーで87%以上の攻撃の成功率を示している。
Claude 3.5 Sonnetを最も安全なものともしていますが、それでも8つのカテゴリのうち7つにバイアスがあります。
GPT4の最適化版であるにもかかわらず、GPT-4oはバイアスやジェイルブレイクの傾向が強くなり、最適化の欠陥が示唆される。
以上の結果から, より堅牢なバイアス緩和戦略と, LLMのセキュリティ対策強化の必要性が浮き彫りになった。
関連論文リスト
- Evaluating Gender Bias of LLMs in Making Morality Judgements [15.997086170275615]
本研究は,現在かつオープンソースであるLarge Language Models (LLMs) がジェンダーバイアスを持つかどうかを考察する。
これらのモデルを評価するために、新しいデータセットGenMO(Gender-bias in Morality Opinions)をキュレートし、導入する。
GPTファミリー(GPT-3.5-turbo, GPT-3.5-turbo-instruct, GPT-4-turbo)、Llama 3および3.1ファミリー(8B/70B)、Mistral-7BおよびClaude 3ファミリー(SonnetとOpus)からモデルをテストする。
GPTは68-85%の症例に偏りを示し、Llama 3は周囲に偏っている。
論文 参考訳(メタデータ) (2024-10-13T20:19:11Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - White Men Lead, Black Women Help? Benchmarking Language Agency Social Biases in LLMs [58.27353205269664]
社会的偏見は言語機関に現れることがある。
本稿では,言語庁バイアス評価ベンチマークを紹介する。
我々は,最近の3つのLarge Language Model(LLM)生成コンテンツにおいて,言語エージェンシーの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models [2.6089354079273512]
最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している
公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
論文 参考訳(メタデータ) (2023-10-20T14:18:40Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - A Trip Towards Fairness: Bias and De-Biasing in Large Language Models [1.987426401990999]
安価なトレーニングを備えたCtB-LLM(Cheap-to-Build Very Large-Language Model)が、自然言語処理と理解における次の大きな革命として現れている。
本稿では,CtB-LLMの3家系の偏りを大規模に調査した。
脱バイアス技術は有効であり,有効であることを示す。
論文 参考訳(メタデータ) (2023-05-23T09:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。