論文の概要: Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game
- arxiv url: http://arxiv.org/abs/2404.14682v1
- Date: Tue, 23 Apr 2024 02:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:31:26.757311
- Title: Uncovering Name-Based Biases in Large Language Models Through Simulated Trust Game
- Title(参考訳): 模擬信頼ゲームによる大規模言語モデルにおける名前ベースビザの発見
- Authors: Yumou Wei, Paulo F. Carvalho, John Stamper,
- Abstract要約: 個人の名前から推測される性や人種は、社会的相互作用に微妙に影響を及ぼすステレオタイプやバイアスの顕著な源泉である。
提案手法は,ベースモデルと命令調整モデルの両方において,名前に基づくバイアスを検出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gender and race inferred from an individual's name are a notable source of stereotypes and biases that subtly influence social interactions. Abundant evidence from human experiments has revealed the preferential treatment that one receives when one's name suggests a predominant gender or race. As large language models acquire more capabilities and begin to support everyday applications, it becomes crucial to examine whether they manifest similar biases when encountering names in a complex social interaction. In contrast to previous work that studies name-based biases in language models at a more fundamental level, such as word representations, we challenge three prominent models to predict the outcome of a modified Trust Game, a well-publicized paradigm for studying trust and reciprocity. To ensure the internal validity of our experiments, we have carefully curated a list of racially representative surnames to identify players in a Trust Game and rigorously verified the construct validity of our prompts. The results of our experiments show that our approach can detect name-based biases in both base and instruction-tuned models.
- Abstract(参考訳): 個人の名前から推測される性や人種は、社会的相互作用に微妙に影響を及ぼすステレオタイプやバイアスの顕著な源泉である。
人間の実験から明らかな証拠は、自分の名前が支配的な性別や人種を示すときに受ける優遇措置を明らかにしている。
大規模言語モデルがより多くの能力を獲得し、日々のアプリケーションをサポートするようになると、複雑な社会的相互作用の中で名前に遭遇する際の類似したバイアスが現れるかどうかを調べることが重要となる。
単語表現のような言語モデルにおける名前に基づくバイアスを研究する以前の研究とは対照的に、我々は3つの顕著なモデルに挑戦して、信頼と相互性を研究するためのよく公表されたパラダイムである、修正された信頼ゲームの結果を予測する。
実験の内的妥当性を確保するため、我々は、トラストゲームにおけるプレイヤーを特定するために、人種的に代表される姓のリストを慎重にキュレートし、我々のプロンプトの構成的妥当性を厳格に検証した。
実験の結果,提案手法はベースモデルとインストラクションチューニングモデルの両方において,名前に基づくバイアスを検出することができることがわかった。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - On the Influence of Gender and Race in Romantic Relationship Prediction from Large Language Models [21.178861746240507]
本研究では,大規模な言語モデルにおける人種間恋愛関係に対するヘテロノルミティブな偏見と偏見の存在について検討する。
モデルでは,(a)同性字対と(b)異性字対,および(b)アジア名を含む人種内・人種内文字対のロマンチックな関係をブラック,ヒスパニック,ホワイト名と比較すると予測しにくいことを示す。
論文 参考訳(メタデータ) (2024-10-05T01:41:55Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - What's in a Name? Auditing Large Language Models for Race and Gender
Bias [49.28899492966893]
我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
論文 参考訳(メタデータ) (2024-02-21T18:25:25Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - Examining the Causal Effect of First Names on Language Models: The Case
of Social Commonsense Reasoning [2.013330800976407]
ファーストネームは、社会デミノグラフィー表現のプロキシとして機能する。
モデルが与えられた入力に対する推論が、提供された最初の名前に基づいて異なるかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-01T20:05:05Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - Hi, my name is Martha: Using names to measure and mitigate bias in
generative dialogue models [14.624075519580405]
不均衡な性別と人種/民族の参照を含む実際の人間の会話で訓練されることは、学習されたバイアスを表示するモデルにつながる可能性がある。
本研究では,これらの対話モデル,特に名前のスクランブル,制御された生成,および不規則な訓練をチューニングする方法が,会話のバイアスを軽減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-07T19:20:24Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。