論文の概要: Using cognitive psychology to understand GPT-3
- arxiv url: http://arxiv.org/abs/2206.14576v1
- Date: Tue, 21 Jun 2022 20:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 02:09:11.476243
- Title: Using cognitive psychology to understand GPT-3
- Title(参考訳): GPT-3を理解するための認知心理学
- Authors: Marcel Binz and Eric Schulz
- Abstract要約: 我々は認知心理学のツールを用いて,近年の大規模言語モデルであるGPT-3を研究した。
我々は, GPT-3の意思決定, 情報探索, 検討, 因果推論能力を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study GPT-3, a recent large language model, using tools from cognitive
psychology. More specifically, we assess GPT-3's decision-making, information
search, deliberation, and causal reasoning abilities on a battery of canonical
experiments from the literature. We find that much of GPT-3's behavior is
impressive: it solves vignette-based tasks similarly or better than human
subjects, is able to make decent decisions from descriptions, outperforms
humans in a multi-armed bandit task, and shows signatures of model-based
reinforcement learning. Yet we also find that small perturbations to
vignette-based tasks can lead GPT-3 vastly astray, that it shows no signatures
of directed exploration, and that it fails miserably in a causal reasoning
task. These results enrich our understanding of current large language models
and pave the way for future investigations using tools from cognitive
psychology to study increasingly capable and opaque artificial agents.
- Abstract(参考訳): 我々は認知心理学のツールを用いて,近年の大規模言語モデルであるGPT-3を研究した。
具体的には, GPT-3の意思決定, 情報探索, 検討, 因果推論能力について, 文献からの正準実験の電池上で評価する。
GPT-3の動作の多くは印象的であり、人間の被験者と同等かそれ以上にウィグネットベースのタスクを解決し、説明からまともな決定を下し、マルチアームのバンディットタスクで人間より優れ、モデルに基づく強化学習の署名を示す。
しかし、vignetteベースのタスクに対する小さな摂動は、gpt-3を大いに混乱させ、有向探索のサインが示されず、因果推論タスクで惨めに失敗することもわかりました。
これらの結果は、現在の大きな言語モデルに対する理解を深め、認知心理学のツールを使って、ますます有能で不透明な人工エージェントを研究する将来の研究の道を開く。
関連論文リスト
- CausalGym: Benchmarking causal interpretability methods on linguistic
tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文 参考訳(メタデータ) (2024-02-19T21:35:56Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - Systematic Evaluation of GPT-3 for Zero-Shot Personality Estimation [12.777659013330823]
GPT-3は、ユーザのソーシャルメディア投稿からBig 5の性格特性を推定するために使用される。
GPT-3の性能は、広く分類するために既存の訓練済みのSotAに近いことが判明した。
我々は、GPT-3が事前訓練された語彙モデルよりも優れた性能を示し、体系的な誤りを説明できる。
論文 参考訳(メタデータ) (2023-06-01T22:43:37Z) - Let GPT be a Math Tutor: Teaching Math Word Problem Solvers with
Customized Exercise Generation [39.282695549919495]
本稿では,大規模言語モデル(LLM)からより小さく,より効率的な学生モデルへ,数学用語の問題解決能力を蒸留する新しい手法を提案する。
本手法は, 学生モデルの弱点を考察し, 教育科学の原則に沿った目標運動を生成することによって, 適切な学習体験を育成することを目的としている。
論文 参考訳(メタデータ) (2023-05-22T17:36:14Z) - Mind meets machine: Unravelling GPT-4's cognitive psychology [0.7302002320865727]
大規模言語モデル(LLM)は、人間レベルのタスクを実行する能力がますます高まっている強力なツールとして出現している。
本研究は,CommonsenseQA, SuperGLUE, MATH, HANSなどのデータセットにおけるGPT-4の性能評価に焦点を当てた。
GPT-4は,従来の最先端モデルと比較して認知心理学的タスクにおいて高い精度を示すことを示す。
論文 参考訳(メタデータ) (2023-03-20T20:28:26Z) - Evaluating Psychological Safety of Large Language Models [72.88260608425949]
我々は,大規模言語モデル(LLM)の心理的安全性を評価するために,バイアスのないプロンプトを設計した。
短い暗黒トライアド(SD-3)とビッグファイブインベントリ(BFI)の2つのパーソナリティテストを用いて5種類のLDMを試験した。
毒性を減らすための安全基準を微調整したものの、InstructGPT, GPT-3.5, GPT-4は依然として暗い性格パターンを示した。
直接選好最適化を用いたBFIからの反応を微調整したLlama-2-chat-7Bは、モデルの心理的毒性を効果的に低減する。
論文 参考訳(メタデータ) (2022-12-20T18:45:07Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。