論文の概要: Humans in Humans Out: On GPT Converging Toward Common Sense in both
Success and Failure
- arxiv url: http://arxiv.org/abs/2303.17276v1
- Date: Thu, 30 Mar 2023 10:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:37:52.340209
- Title: Humans in Humans Out: On GPT Converging Toward Common Sense in both
Success and Failure
- Title(参考訳): 人類の人間:成功と失敗の両面で共通感覚に収束するGPTについて
- Authors: Philipp Koralus, Vincent Wang-Ma\'scianica
- Abstract要約: GPT-3, GPT-3.5, GPT-4は多量の人為的テキストで訓練された。
これらの例の59%に対して, GPT-3 は ETR 予測出力の証拠を示した。
GPT-3では18%, GPT-3.5では33%, GPT-4では34%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increase in computational scale and fine-tuning has seen a dramatic
improvement in the quality of outputs of large language models (LLMs) like GPT.
Given that both GPT-3 and GPT-4 were trained on large quantities of
human-generated text, we might ask to what extent their outputs reflect
patterns of human thinking, both for correct and incorrect cases. The Erotetic
Theory of Reason (ETR) provides a symbolic generative model of both human
success and failure in thinking, across propositional, quantified, and
probabilistic reasoning, as well as decision-making. We presented GPT-3,
GPT-3.5, and GPT-4 with 61 central inference and judgment problems from a
recent book-length presentation of ETR, consisting of experimentally verified
data-points on human judgment and extrapolated data-points predicted by ETR,
with correct inference patterns as well as fallacies and framing effects (the
ETR61 benchmark). ETR61 includes classics like Wason's card task, illusory
inferences, the decoy effect, and opportunity-cost neglect, among others. GPT-3
showed evidence of ETR-predicted outputs for 59% of these examples, rising to
77% in GPT-3.5 and 75% in GPT-4. Remarkably, the production of human-like
fallacious judgments increased from 18% in GPT-3 to 33% in GPT-3.5 and 34% in
GPT-4. This suggests that larger and more advanced LLMs may develop a tendency
toward more human-like mistakes, as relevant thought patterns are inherent in
human-produced training data. According to ETR, the same fundamental patterns
are involved both in successful and unsuccessful ordinary reasoning, so that
the "bad" cases could paradoxically be learned from the "good" cases. We
further present preliminary evidence that ETR-inspired prompt engineering could
reduce instances of these mistakes.
- Abstract(参考訳): 計算スケールの増大と微調整により、GPTのような大規模言語モデル(LLM)の出力品質が劇的に向上した。
GPT-3とGPT-4はともに、大量の人為的なテキストで訓練されているので、そのアウトプットがいかに人間の思考のパターンを反映しているかを、正しくも正しくも問うことができる。
Erotetic Theory of Reason (ETR) は、人間の成功と思考の失敗、命題、定量化、確率論的推論、および意思決定の象徴的な生成モデルを提供する。
本稿では,人間の判断に関する実験的検証データポイントと,etrが予測した外挿データポイントと,正確な推論パターンと誤用とフレーミング効果(etr61ベンチマーク)からなる,etrの最近の本長プレゼンテーションから,gpt-3,gpt-3.5,gpt-4を61の中心的な推論と判断問題で提示した。
etr61には、wasonのcard task、illusory inferences、decoy effect、オポチュニティコストの無視といった古典が含まれている。
GPT-3は、これらの例の59%に対してETR予測出力の証拠を示し、GPT-3.5では77%、GPT-4では75%まで上昇した。
GPT-3では18%, GPT-3.5では33%, GPT-4では34%であった。
このことは、より大きく、より進んだLSMは、関連する思考パターンが人為的なトレーニングデータに固有のものであるため、より人間的な誤りの傾向を増すことを示唆している。
etrによると、同じ基本的なパターンが正常な推論の成功と失敗の両方に関与しているため、"悪い"ケースは"良い"ケースからパラドックス的に学ぶことができる。
さらに、ETRにインスパイアされたプロンプトエンジニアリングがこれらのミスの事例を減らす可能性があるという予備的な証拠を示す。
関連論文リスト
- Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - AI-enhanced Auto-correction of Programming Exercises: How Effective is
GPT-3.5? [0.0]
本稿では、パーソナライズされたコード修正とフィードバック生成におけるAIの可能性について検討する。
GPT-3.5は、実際のエラーではないエラーのローカライズや、幻覚的エラーなど、評価の弱点を示した。
論文 参考訳(メタデータ) (2023-10-24T10:35:36Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - SentimentGPT: Exploiting GPT for Advanced Sentiment Analysis and its
Departure from Current Machine Learning [5.177947445379688]
本研究は,感情分析における各種生成事前変換器(GPT)手法の徹底的な検討である。
1) 先進型GPT-3.5ターボを用いた迅速なエンジニアリング,2) 微調整型GPTモデル,3) 組込み分類への革新的アプローチの3つの戦略が採用されている。
この研究は、これらの戦略と個々のGPTモデルの間で詳細な比較洞察を与え、そのユニークな強みと潜在的な制限を明らかにしている。
論文 参考訳(メタデータ) (2023-07-16T05:33:35Z) - A negation detection assessment of GPTs: analysis with the xNot360
dataset [9.165119034384027]
否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。
我々は,xNot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の識別に焦点を当てた。
GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
論文 参考訳(メタデータ) (2023-06-29T02:27:48Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - GPT-3.5, GPT-4, or BARD? Evaluating LLMs Reasoning Ability in Zero-Shot
Setting and Performance Boosting Through Prompts [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では, GPT-3.5, GPT-4, BARDモデルの性能について, 様々な推論タスクについて, 徹底的な技術的評価を行うことにより検討する。
論文 参考訳(メタデータ) (2023-05-21T14:45:17Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。