論文の概要: Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11079v1
- Date: Tue, 17 Oct 2023 08:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:03:03.954218
- Title: Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models
- Title(参考訳): 赤チームから学ぶ: 大きな言語モデルにおけるジェンダーバイアスの挑発と緩和
- Authors: Hsuan Su, Cheng-Chu Cheng, Hua Farn, Shachi H Kumar, Saurav Sahay,
Shang-Tse Chen, Hung-yi Lee
- Abstract要約: 大型言語モデル(LLM)は潜在的なバイアスを符号化し、相互作用中に人間を傷つける相違を保持する。
LLMの潜在的な性別バイアスを検出するテストケースを自動生成するファースト・オブ・イズ・キンド法を提案する。
特定されたバイアスに対処するため,本研究では,生成したテストケースを文脈内学習の実証として利用する緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 43.44112117935541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, researchers have made considerable improvements in dialogue systems
with the progress of large language models (LLMs) such as ChatGPT and GPT-4.
These LLM-based chatbots encode the potential biases while retaining
disparities that can harm humans during interactions. The traditional biases
investigation methods often rely on human-written test cases. However, these
test cases are usually expensive and limited. In this work, we propose a
first-of-its-kind method that automatically generates test cases to detect
LLMs' potential gender bias. We apply our method to three well-known LLMs and
find that the generated test cases effectively identify the presence of biases.
To address the biases identified, we propose a mitigation strategy that uses
the generated test cases as demonstrations for in-context learning to
circumvent the need for parameter fine-tuning. The experimental results show
that LLMs generate fairer responses with the proposed approach.
- Abstract(参考訳): 近年,ChatGPTやGPT-4といった大規模言語モデル(LLM)の進歩に伴い,対話システムに大幅な改良が加えられている。
これらのLSMベースのチャットボットは、相互作用中に人間を傷つける可能性のある格差を維持しながら、潜在的なバイアスを符号化する。
従来の偏見調査手法は、しばしば人間によるテストケースに依存している。
しかし、これらのテストケースは通常高価で限られている。
本研究では,LSMの潜在的な性別バイアスを検出するテストケースを自動生成する手法を提案する。
提案手法を3つのよく知られたLCMに適用し, 生成したテストケースがバイアスの存在を効果的に識別できることを見出した。
同定されたバイアスに対処するため,パラメータ微調整の必要性を回避するために,テキスト内学習の実証として生成されたテストケースを利用する緩和戦略を提案する。
実験の結果, LLMは提案手法によりより公平な応答を生じさせることがわかった。
関連論文リスト
- Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。
本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。
その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Causal-Guided Active Learning for Debiasing Large Language Models [40.853803921563596]
現在の生成型大規模言語モデル(LLM)は、それでもデータセットバイアスを捕捉し、生成に利用することができる。
従来の知識に基づくデバイアス法や微調整に基づくデバイアス法は、現在のLCMには適さない可能性がある。
LLM自体を利用して情報バイアスされたサンプルを自動かつ自律的に識別し,バイアスパターンを誘導する,カジュアル誘導型アクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T09:46:15Z) - Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文 参考訳(メタデータ) (2024-02-29T18:55:03Z) - Likelihood-based Mitigation of Evaluation Bias in Large Language Models [37.07596663793111]
大規模言語モデル(LLM)は、自然言語生成タスクを自動メトリクスとして評価するために広く使われている。
LLMが評価に使用される場合、確率バイアスが存在する可能性がある。
論文 参考訳(メタデータ) (2024-02-25T04:52:02Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Red Teaming Language Models with Language Models [8.237872606555383]
言語モデル(LM)は、予測が難しい方法でユーザを傷つける可能性があるため、デプロイできないことが多い。
以前の作業では、ヒューマンアノテータを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。
本研究では、別のLMを用いてテストケース(「レッドチーム」)を生成することにより、標的のLMが有害な振る舞いをするケースを自動的に見つける。
論文 参考訳(メタデータ) (2022-02-07T15:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。