論文の概要: Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game
- arxiv url: http://arxiv.org/abs/2404.14682v1
- Date: Tue, 23 Apr 2024 02:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:31:26.757311
- Title: Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game
- Title(参考訳): 模擬信頼ゲームによる大規模言語モデルにおける名前ベースビザの発見
- Authors: Yumou Wei, Paulo F. Carvalho, John Stamper,
- Abstract要約: 個人の名前から推測される性や人種は、社会的相互作用に微妙に影響を及ぼすステレオタイプやバイアスの顕著な源泉である。
提案手法は,ベースモデルと命令調整モデルの両方において,名前に基づくバイアスを検出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gender and race inferred from an individual's name are a notable source of stereotypes and biases that subtly influence social interactions. Abundant evidence from human experiments has revealed the preferential treatment that one receives when one's name suggests a predominant gender or race. As large language models acquire more capabilities and begin to support everyday applications, it becomes crucial to examine whether they manifest similar biases when encountering names in a complex social interaction. In contrast to previous work that studies name-based biases in language models at a more fundamental level, such as word representations, we challenge three prominent models to predict the outcome of a modified Trust Game, a well-publicized paradigm for studying trust and reciprocity. To ensure the internal validity of our experiments, we have carefully curated a list of racially representative surnames to identify players in a Trust Game and rigorously verified the construct validity of our prompts. The results of our experiments show that our approach can detect name-based biases in both base and instruction-tuned models.
- Abstract(参考訳): 個人の名前から推測される性や人種は、社会的相互作用に微妙に影響を及ぼすステレオタイプやバイアスの顕著な源泉である。
人間の実験から明らかな証拠は、自分の名前が支配的な性別や人種を示すときに受ける優遇措置を明らかにしている。
大規模言語モデルがより多くの能力を獲得し、日々のアプリケーションをサポートするようになると、複雑な社会的相互作用の中で名前に遭遇する際の類似したバイアスが現れるかどうかを調べることが重要となる。
単語表現のような言語モデルにおける名前に基づくバイアスを研究する以前の研究とは対照的に、我々は3つの顕著なモデルに挑戦して、信頼と相互性を研究するためのよく公表されたパラダイムである、修正された信頼ゲームの結果を予測する。
実験の内的妥当性を確保するため、我々は、トラストゲームにおけるプレイヤーを特定するために、人種的に代表される姓のリストを慎重にキュレートし、我々のプロンプトの構成的妥当性を厳格に検証した。
実験の結果,提案手法はベースモデルとインストラクションチューニングモデルの両方において,名前に基づくバイアスを検出することができることがわかった。
関連論文リスト
- What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Examining the Causal Effect of First Names on Language Models: The Case
of Social Commonsense Reasoning [2.013330800976407]
ファーストネームは、社会デミノグラフィー表現のプロキシとして機能する。
モデルが与えられた入力に対する推論が、提供された最初の名前に基づいて異なるかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-01T20:05:05Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Hi, my name is Martha: Using names to measure and mitigate bias in
generative dialogue models [14.624075519580405]
不均衡な性別と人種/民族の参照を含む実際の人間の会話で訓練されることは、学習されたバイアスを表示するモデルにつながる可能性がある。
本研究では,これらの対話モデル,特に名前のスクランブル,制御された生成,および不規則な訓練をチューニングする方法が,会話のバイアスを軽減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-07T19:20:24Z) - Quantifying Gender Bias Towards Politicians in Cross-Lingual Language
Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。
死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文 参考訳(メタデータ) (2021-04-15T15:03:26Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。