論文の概要: Evaluating and Mitigating Discrimination in Language Model Decisions
- arxiv url: http://arxiv.org/abs/2312.03689v1
- Date: Wed, 6 Dec 2023 18:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 13:47:15.888662
- Title: Evaluating and Mitigating Discrimination in Language Model Decisions
- Title(参考訳): 言語モデル決定における差別の評価と緩和
- Authors: Alex Tamkin, Amanda Askell, Liane Lovitt, Esin Durmus, Nicholas
Joseph, Shauna Kravec, Karina Nguyen, Jared Kaplan, Deep Ganguli
- Abstract要約: 本稿では,言語モデル(LM)の潜在的な差別的影響を,幅広いユースケースで積極的に評価する手法を提案する。
我々は、LMを用いて、意思決定者がLMに入力できる幅広い潜在的なプロンプトを生成し、社会全体で70の多様な意思決定シナリオにまたがる。
この方法論を適用することで、介入が適用されない場合の選択設定において、Claude 2.0モデルにおける肯定的および否定的な差別のパターンが明らかになる。
- 参考スコア(独自算出の注目度): 22.89413932780164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models (LMs) advance, interest is growing in applying them to
high-stakes societal decisions, such as determining financing or housing
eligibility. However, their potential for discrimination in such contexts
raises ethical concerns, motivating the need for better methods to evaluate
these risks. We present a method for proactively evaluating the potential
discriminatory impact of LMs in a wide range of use cases, including
hypothetical use cases where they have not yet been deployed. Specifically, we
use an LM to generate a wide array of potential prompts that decision-makers
may input into an LM, spanning 70 diverse decision scenarios across society,
and systematically vary the demographic information in each prompt. Applying
this methodology reveals patterns of both positive and negative discrimination
in the Claude 2.0 model in select settings when no interventions are applied.
While we do not endorse or permit the use of language models to make automated
decisions for the high-risk use cases we study, we demonstrate techniques to
significantly decrease both positive and negative discrimination through
careful prompt engineering, providing pathways toward safer deployment in use
cases where they may be appropriate. Our work enables developers and
policymakers to anticipate, measure, and address discrimination as language
model capabilities and applications continue to expand. We release our dataset
and prompts at https://huggingface.co/datasets/Anthropic/discrim-eval
- Abstract(参考訳): 言語モデル(LM)が進むにつれて、金融や住宅の適格性などの高い社会的決定にそれらを適用することへの関心が高まっている。
しかし、そのような文脈における差別の可能性は倫理的な懸念を生じさせ、これらのリスクを評価するためのより良い方法の必要性を動機付ける。
本報告では, lmsの潜在的な差別的影響を, 適用されていない仮説的ユースケースを含め, 広範囲のユースケースで積極的に評価する方法を提案する。
具体的には、LMを用いて、意思決定者がLMに入力し、社会全体で70の多様な決定シナリオにまたがって、各プロンプトの人口統計情報を体系的に変化させる、幅広い可能性のプロンプトを生成する。
この方法論を適用すると、介入が適用されない場合の選択設定において、Claude 2.0モデルにおける正と負の区別の両方のパターンが明らかになる。
リスクの高いユースケースに対しては,言語モデルの使用を推奨したり許可したりしないが,慎重なプロンプトエンジニアリングを通じて,肯定的かつ否定的な差別を著しく低減し,適切なユースケースにおける安全なデプロイメントへの道筋を提供する技術を示す。
私たちの仕事により、開発者や政策立案者は、言語モデルの機能とアプリケーションが拡大し続けるにつれて、差別を予測、測定、対処することができます。
私たちはデータセットとプロンプトをhttps://huggingface.co/datasets/anthropic/discrim-evalでリリースします。
関連論文リスト
- Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Prompt and Prejudice [29.35618753825668]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) におけるファーストネームの使用が与える影響について検討する。
本稿では、倫理的に注釈付けされたテキストシナリオにファーストネームを付加して、モデル出力における人口統計バイアスを明らかにするアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:11:33Z) - The Mismeasure of Man and Models: Evaluating Allocational Harms in Large Language Models [22.75594773147521]
大規模言語モデル(LLM)におけるバイアスから生じる潜在的アロケーション障害を評価するモデル非依存バイアス指標であるランクアロケーションベースバイアス指標(RABBI)を導入する。
その結果, 平均性能差と分布距離に基づく偏差測定では, 割り当て結果の集団差を確実に把握できないことがわかった。
私たちの研究は、限られたリソース制約のあるコンテキストでモデルがどのように使用されるかを説明する必要性を強調しています。
論文 参考訳(メタデータ) (2024-08-02T14:13:06Z) - Evaluating language models as risk scores [23.779329697527054]
質問応答 LLM を用いてリスクスコアを生成するソフトウェアパッケージである folktexts を紹介する。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。
現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。
我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文 参考訳(メタデータ) (2024-07-09T15:23:28Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty [53.336235704123915]
提案手法は, 自然言語による応答の信頼度と, LMによる不確実性に応答して下流ユーザーがどのように振る舞うかを考察する。
誤応答を生じた場合でも,LMは疑問に答える際の不確実性を表現することに消極的であることがわかった。
我々は、人間の実験によって、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、トレーニング後のアライメントに使用する嗜好アノテートデータセットを調査し、不確実性のあるテキストに対して人間がバイアスを受けていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。