論文の概要: Evaluating and Mitigating Discrimination in Language Model Decisions
- arxiv url: http://arxiv.org/abs/2312.03689v1
- Date: Wed, 6 Dec 2023 18:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 13:47:15.888662
- Title: Evaluating and Mitigating Discrimination in Language Model Decisions
- Title(参考訳): 言語モデル決定における差別の評価と緩和
- Authors: Alex Tamkin, Amanda Askell, Liane Lovitt, Esin Durmus, Nicholas
Joseph, Shauna Kravec, Karina Nguyen, Jared Kaplan, Deep Ganguli
- Abstract要約: 本稿では,言語モデル(LM)の潜在的な差別的影響を,幅広いユースケースで積極的に評価する手法を提案する。
我々は、LMを用いて、意思決定者がLMに入力できる幅広い潜在的なプロンプトを生成し、社会全体で70の多様な意思決定シナリオにまたがる。
この方法論を適用することで、介入が適用されない場合の選択設定において、Claude 2.0モデルにおける肯定的および否定的な差別のパターンが明らかになる。
- 参考スコア(独自算出の注目度): 22.89413932780164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models (LMs) advance, interest is growing in applying them to
high-stakes societal decisions, such as determining financing or housing
eligibility. However, their potential for discrimination in such contexts
raises ethical concerns, motivating the need for better methods to evaluate
these risks. We present a method for proactively evaluating the potential
discriminatory impact of LMs in a wide range of use cases, including
hypothetical use cases where they have not yet been deployed. Specifically, we
use an LM to generate a wide array of potential prompts that decision-makers
may input into an LM, spanning 70 diverse decision scenarios across society,
and systematically vary the demographic information in each prompt. Applying
this methodology reveals patterns of both positive and negative discrimination
in the Claude 2.0 model in select settings when no interventions are applied.
While we do not endorse or permit the use of language models to make automated
decisions for the high-risk use cases we study, we demonstrate techniques to
significantly decrease both positive and negative discrimination through
careful prompt engineering, providing pathways toward safer deployment in use
cases where they may be appropriate. Our work enables developers and
policymakers to anticipate, measure, and address discrimination as language
model capabilities and applications continue to expand. We release our dataset
and prompts at https://huggingface.co/datasets/Anthropic/discrim-eval
- Abstract(参考訳): 言語モデル(LM)が進むにつれて、金融や住宅の適格性などの高い社会的決定にそれらを適用することへの関心が高まっている。
しかし、そのような文脈における差別の可能性は倫理的な懸念を生じさせ、これらのリスクを評価するためのより良い方法の必要性を動機付ける。
本報告では, lmsの潜在的な差別的影響を, 適用されていない仮説的ユースケースを含め, 広範囲のユースケースで積極的に評価する方法を提案する。
具体的には、LMを用いて、意思決定者がLMに入力し、社会全体で70の多様な決定シナリオにまたがって、各プロンプトの人口統計情報を体系的に変化させる、幅広い可能性のプロンプトを生成する。
この方法論を適用すると、介入が適用されない場合の選択設定において、Claude 2.0モデルにおける正と負の区別の両方のパターンが明らかになる。
リスクの高いユースケースに対しては,言語モデルの使用を推奨したり許可したりしないが,慎重なプロンプトエンジニアリングを通じて,肯定的かつ否定的な差別を著しく低減し,適切なユースケースにおける安全なデプロイメントへの道筋を提供する技術を示す。
私たちの仕事により、開発者や政策立案者は、言語モデルの機能とアプリケーションが拡大し続けるにつれて、差別を予測、測定、対処することができます。
私たちはデータセットとプロンプトをhttps://huggingface.co/datasets/anthropic/discrim-evalでリリースします。
関連論文リスト
- Bayesian Preference Elicitation with Language Models [82.58230273253939]
本稿では,BOEDを用いて情報的質問の選択を案内するフレームワークOPENと,特徴抽出のためのLMを紹介する。
ユーザスタディでは,OPEN が既存の LM- や BOED をベースとした選好手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-03-08T18:57:52Z) - Prejudice and Caprice: A Statistical Framework for Measuring Social
Discrimination in Large Language Models [0.0]
大規模言語モデル(LLM)における識別を包括的に計測するPCF(Prejudice-Caprice Framework)を提案する。
我々は,LLMの集合的文脈的識別リスクを,LLMの持続的偏見から生じる偏見リスクと,それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。
識別測定の枠組みを12の共通LLMに適用し,興味深い結果を得た。
論文 参考訳(メタデータ) (2024-02-23T18:15:56Z) - Relying on the Unreliable: The Impact of Language Models' Reluctance to
Express Uncertainty [58.26600585770745]
誤応答しても,不確かさを表現できないことが判明した。
我々は、人間の実験を行うことで、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。
論文 参考訳(メタデータ) (2024-01-12T18:03:30Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z) - Why So Gullible? Enhancing the Robustness of Retrieval-Augmented Models against Counterfactual Noise [14.38859858538404]
検索された文書セットでは、「関連」文書でさえ誤った情報や誤った情報を含むことがある。
我々の研究は、"関連"文書でさえ誤った情報や誤った情報を含む、より困難なシナリオを調査します。
本稿では,識別器を明示的に微調整したり,GPT-3.5に識別能力の付与を促すことによって,検索した文書間の知識衝突を処理する手法を提案する。
論文 参考訳(メタデータ) (2023-05-02T16:28:10Z) - Human-Centric Multimodal Machine Learning: Recent Advances and Testbed
on AI-based Recruitment [66.91538273487379]
人間中心のアプローチでAIアプリケーションを開発する必要性には、ある程度のコンセンサスがある。
i)ユーティリティと社会的善、(ii)プライバシとデータ所有、(iii)透明性と説明責任、(iv)AIによる意思決定プロセスの公正性。
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2023-02-13T16:44:44Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z) - Bias in Multimodal AI: Testbed for Fair Automatic Recruitment [73.85525896663371]
異種情報ソースに基づく現在のマルチモーダルアルゴリズムは、データ中の機密要素や内部バイアスによってどのように影響を受けるかを検討する。
我々は、性別や人種の偏りを意識的に評価したマルチモーダルな合成プロファイルを用いて、自動求人アルゴリズムを訓練する。
我々の方法論と結果は、一般により公平なAIベースのツール、特により公平な自動採用システムを生成する方法を示している。
論文 参考訳(メタデータ) (2020-04-15T15:58:05Z) - Learning from Discriminatory Training Data [2.1869017389979266]
監視された学習システムは、歴史的データを用いて訓練され、もしデータが差別によって汚染された場合、保護されたグループに対して差別を意図せずに学習する可能性がある。
差別的データセットの訓練にもかかわらず、公正な学習手法は、公正なテストデータセットで良好に機能することを提案する。
論文 参考訳(メタデータ) (2019-12-17T18:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。