論文の概要: Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11079v1
- Date: Tue, 17 Oct 2023 08:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:03:03.954218
- Title: Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models
- Title(参考訳): 赤チームから学ぶ: 大きな言語モデルにおけるジェンダーバイアスの挑発と緩和
- Authors: Hsuan Su, Cheng-Chu Cheng, Hua Farn, Shachi H Kumar, Saurav Sahay,
Shang-Tse Chen, Hung-yi Lee
- Abstract要約: 大型言語モデル(LLM)は潜在的なバイアスを符号化し、相互作用中に人間を傷つける相違を保持する。
LLMの潜在的な性別バイアスを検出するテストケースを自動生成するファースト・オブ・イズ・キンド法を提案する。
特定されたバイアスに対処するため,本研究では,生成したテストケースを文脈内学習の実証として利用する緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 43.44112117935541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, researchers have made considerable improvements in dialogue systems
with the progress of large language models (LLMs) such as ChatGPT and GPT-4.
These LLM-based chatbots encode the potential biases while retaining
disparities that can harm humans during interactions. The traditional biases
investigation methods often rely on human-written test cases. However, these
test cases are usually expensive and limited. In this work, we propose a
first-of-its-kind method that automatically generates test cases to detect
LLMs' potential gender bias. We apply our method to three well-known LLMs and
find that the generated test cases effectively identify the presence of biases.
To address the biases identified, we propose a mitigation strategy that uses
the generated test cases as demonstrations for in-context learning to
circumvent the need for parameter fine-tuning. The experimental results show
that LLMs generate fairer responses with the proposed approach.
- Abstract(参考訳): 近年,ChatGPTやGPT-4といった大規模言語モデル(LLM)の進歩に伴い,対話システムに大幅な改良が加えられている。
これらのLSMベースのチャットボットは、相互作用中に人間を傷つける可能性のある格差を維持しながら、潜在的なバイアスを符号化する。
従来の偏見調査手法は、しばしば人間によるテストケースに依存している。
しかし、これらのテストケースは通常高価で限られている。
本研究では,LSMの潜在的な性別バイアスを検出するテストケースを自動生成する手法を提案する。
提案手法を3つのよく知られたLCMに適用し, 生成したテストケースがバイアスの存在を効果的に識別できることを見出した。
同定されたバイアスに対処するため,パラメータ微調整の必要性を回避するために,テキスト内学習の実証として生成されたテストケースを利用する緩和戦略を提案する。
実験の結果, LLMは提案手法によりより公平な応答を生じさせることがわかった。
関連論文リスト
- Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文 参考訳(メタデータ) (2024-02-29T18:55:03Z) - Likelihood-based Mitigation of Evaluation Bias in Large Language Models [39.77680080235204]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Sources of Hallucination by Large Language Models on Inference Tasks [16.644096408742325]
大規模言語モデル (LLM) は自然言語推論 (NLI) が可能なと主張している。
本研究は, 制御実験を用いて行動調査を行う複数のLLMファミリーに関する一連の行動学的研究について述べる。
論文 参考訳(メタデータ) (2023-05-23T22:24:44Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - Red Teaming Language Models with Language Models [8.237872606555383]
言語モデル(LM)は、予測が難しい方法でユーザを傷つける可能性があるため、デプロイできないことが多い。
以前の作業では、ヒューマンアノテータを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。
本研究では、別のLMを用いてテストケース(「レッドチーム」)を生成することにより、標的のLMが有害な振る舞いをするケースを自動的に見つける。
論文 参考訳(メタデータ) (2022-02-07T15:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。