論文の概要: Cognitive network science reveals bias in GPT-3, ChatGPT, and GPT-4
mirroring math anxiety in high-school students
- arxiv url: http://arxiv.org/abs/2305.18320v1
- Date: Mon, 22 May 2023 15:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-04 11:30:16.992249
- Title: Cognitive network science reveals bias in GPT-3, ChatGPT, and GPT-4
mirroring math anxiety in high-school students
- Title(参考訳): 高校生の数学不安を反映する認知ネットワーク科学 : gpt-3, chatgpt, gpt-4のバイアス
- Authors: Katherine Abramski, Salvatore Citraro, Luigi Lombardi, Giulio
Rossetti, and Massimo Stella
- Abstract要約: 本稿では,GPT-3,Chat-GPT,GPT-4といった最先端言語モデルによって提供される数学やSTEMの知覚について検討する。
以上の結果から,LSMは数学やSTEMの分野に対して全体的に負の知覚を持ち,数学が最も負の認識を受けていることが示唆された。
我々は,新しいバージョン(GPT-4)は,より豊かで複雑な知覚と,より古いバージョンやN=159人の高校生に比べて否定的な知覚が低いことを観察した。
- 参考スコア(独自算出の注目度): 0.3131740922192114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are becoming increasingly integrated into our lives.
Hence, it is important to understand the biases present in their outputs in
order to avoid perpetuating harmful stereotypes, which originate in our own
flawed ways of thinking. This challenge requires developing new benchmarks and
methods for quantifying affective and semantic bias, keeping in mind that LLMs
act as psycho-social mirrors that reflect the views and tendencies that are
prevalent in society. One such tendency that has harmful negative effects is
the global phenomenon of anxiety toward math and STEM subjects. Here, we
investigate perceptions of math and STEM fields provided by cutting-edge
language models, namely GPT-3, Chat-GPT, and GPT-4, by applying an approach
from network science and cognitive psychology. Specifically, we use behavioral
forma mentis networks (BFMNs) to understand how these LLMs frame math and STEM
disciplines in relation to other concepts. We use data obtained by probing the
three LLMs in a language generation task that has previously been applied to
humans. Our findings indicate that LLMs have an overall negative perception of
math and STEM fields, with math being perceived most negatively. We observe
significant differences across the three LLMs. We observe that newer versions
(i.e. GPT-4) produce richer, more complex perceptions as well as less negative
perceptions compared to older versions and N=159 high-school students. These
findings suggest that advances in the architecture of LLMs may lead to
increasingly less biased models that could even perhaps someday aid in reducing
harmful stereotypes in society rather than perpetuating them.
- Abstract(参考訳): 大規模な言語モデルは、私たちの生活にますます統合されつつある。
したがって, 有害なステレオタイプの持続を避けるためには, アウトプットに現れるバイアスを理解することが重要である。
この課題には、感情バイアスと意味バイアスを定量化する新しいベンチマークと方法の開発が必要であり、LLMが社会で広く見られる見解や傾向を反映する精神社会的ミラーとして機能することを念頭に置いている。
悪影響を及ぼす傾向の1つは、数学やSTEMの被験者に対する不安の世界的な現象である。
本稿では,ネットワーク科学と認知心理学のアプローチを適用し,GPT-3,Chat-GPT,GPT-4といった最先端言語モデルによって提供される数学やSTEMの知覚について検討する。
具体的には,行動フォーラム・メンティス・ネットワーク(BFMN)を用いて,これらのLLMが他の概念とどのように関係して数学やSTEMの分野をフレーム化しているかを理解する。
これまでに人間に適用された言語生成タスクにおいて,3つのllmを探索したデータを用いる。
以上の結果から,LSMは数学やSTEMの分野に対して全体的に負の知覚を持ち,数学が最も負の認識を受けていることが示唆された。
3つのLSM間で有意な差異が認められた。
我々は,新しいバージョン(GPT-4)は,より豊かで複雑な知覚と,より古いバージョンやN=159人の高校生に比べて否定的な知覚が低いことを観察した。
これらの結果は、llmのアーキテクチャの進歩が、社会における有害なステレオタイプを減らすのに役立つような偏りの少ないモデルに繋がる可能性を示唆している。
関連論文リスト
- Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - A Perspective on Large Language Models, Intelligent Machines, and Knowledge Acquisition [0.6138671548064355]
大言語モデル(LLM)は「知識」を生成できることで知られている。
しかし、抽象概念と推論を理解するためのLLMと人間の能力の間には大きなギャップがある。
我々はこれらの問題を、人間の知識獲得とチューリングテストの哲学的な文脈で論じる。
論文 参考訳(メタデータ) (2024-08-13T03:25:49Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は,大規模言語モデルが特定のグループに対する暗黙の偏見を厳格に評価する。
我々は,4つの共通のバイアス型の評価データセットを構築した3つのアタックアプローチ,すなわちDguise,Deception,Teachingを提案する。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - StereoMap: Quantifying the Awareness of Human-like Stereotypes in Large
Language Models [11.218531873222398]
大規模言語モデル(LLM)は、トレーニングデータに存在する有害な関連を符号化し、永続する。
本稿では,人口集団が社会によってどのように見られているかについての認識を得るために,StereoMapという理論的基盤を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:22:30Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。