論文の概要: Cognitive bias in large language models: Cautious optimism meets
anti-Panglossian meliorism
- arxiv url: http://arxiv.org/abs/2311.10932v1
- Date: Sat, 18 Nov 2023 01:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 13:34:40.029136
- Title: Cognitive bias in large language models: Cautious optimism meets
anti-Panglossian meliorism
- Title(参考訳): 大規模言語モデルにおける認知バイアス : 慎重な楽観主義と反パングロス的メリオリズム
- Authors: David Thorstad
- Abstract要約: 大きな言語モデルにおけるバイアスの伝統的な議論は、不公平と密接に結びついたバイアスの概念に焦点を当てている。
最近の研究は、様々な認知バイアスに対して、大きな言語モデルのアウトプットを評価する新たな可能性を高めている。
この議論の哲学的意味は、人間の認知バイアスの合理性や、モデルバイアスの駆動における非表現的データの役割である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional discussions of bias in large language models focus on a
conception of bias closely tied to unfairness, especially as affecting
marginalized groups. Recent work raises the novel possibility of assessing the
outputs of large language models for a range of cognitive biases familiar from
research in judgment and decisionmaking. My aim in this paper is to draw two
lessons from recent discussions of cognitive bias in large language models:
cautious optimism about the prevalence of bias in current models coupled with
an anti-Panglossian willingness to concede the existence of some genuine biases
and work to reduce them. I draw out philosophical implications of this
discussion for the rationality of human cognitive biases as well as the role of
unrepresentative data in driving model biases.
- Abstract(参考訳): 大規模言語モデルにおけるバイアスの伝統的な議論は、不公平に密接に結びついているバイアスの概念に焦点を当てている。
最近の研究は、判断と意思決定の研究に精通した様々な認知バイアスに対して、大きな言語モデルのアウトプットを評価する新しい可能性を高める。
本研究の目的は,近年の大規模言語モデルにおける認知バイアスに関する議論から得られた2つの教訓を明らかにすることである。
この議論の哲学的意義を,人間の認知バイアスの合理性や,モデルバイアスの駆動における非表現データの役割について考察する。
関連論文リスト
- GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Social Bias Probing: Fairness Benchmarking for Language Models [48.5644008956526]
本稿では,社会的バイアスに対する言語モデル探索のための独自のフレームワークを提案する。
我々は,言語モデルの一般関連を分析するための探索データセットを収集し,社会的カテゴリ,アイデンティティ,ステレオタイプなどの軸に沿って収集する。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Evaluating Biased Attitude Associations of Language Models in an
Intersectional Context [2.891314299138311]
言語モデルは、心理学で文書化された暗黙のバイアスを埋め込んだ大規模コーパスで訓練される。
我々は、年齢、教育、性別、身長、知性、識字性、人種、宗教、性、性的指向、社会階級、体重に関するバイアスを研究する。
言語モデルは、性同一性、社会的階級、性的指向のシグナルに対して最も偏りのある態度を示す。
論文 参考訳(メタデータ) (2023-07-07T03:01:56Z) - Should ChatGPT be Biased? Challenges and Risks of Bias in Large Language
Models [11.323961700172175]
本稿では,ChatGPTのような大規模言語モデルにおけるバイアスに関連する課題とリスクについて考察する。
我々は、トレーニングデータの性質、モデル仕様、アルゴリズム制約、製品設計、ポリシー決定など、バイアスの起源について論じる。
私たちは、言語モデルにおけるバイアスを特定し、定量化し、緩和するための現在のアプローチをレビューし、より公平で透明で責任あるAIシステムを開発するための、多分野の協力的な取り組みの必要性を強調します。
論文 参考訳(メタデータ) (2023-04-07T17:14:00Z) - Towards an Enhanced Understanding of Bias in Pre-trained Neural Language
Models: A Survey with Special Emphasis on Affective Bias [2.6304695993930594]
本稿では,大規模な事前学習言語モデルにおけるバイアスの理解,それらの発生ステージの分析,およびこれらのバイアスを定量化し緩和する様々な方法を提案する。
ビジネス,医療,教育などの実世界のシステムにおいて,テキストによる情緒的コンピューティングに基づく下流作業の幅広い適用性を考慮すると,感情(感情)の文脈における偏見(感情)、すなわち感情的バイアス(Affective Bias)の探究に特に重点を置いている。
本稿では,将来の研究を支援する各種バイアス評価コーパスの概要と,事前学習言語モデルにおけるバイアス研究の課題について述べる。
論文 参考訳(メタデータ) (2022-04-21T18:51:19Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of
Conversational Language Models [37.98671828283487]
テキスト表現モデルは、様々な社会的バイアスを示す傾向がある。
最近の研究は、事前訓練された言語モデルにおけるバイアスの測定と緩和に重点を置いている。
RedditBiasは、Redditによる人間の会話をベースとした初めての会話データセットだ。
論文 参考訳(メタデータ) (2021-06-07T11:22:39Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。