論文の概要: Emergent Analogical Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2212.09196v3
- Date: Thu, 3 Aug 2023 03:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:20:37.186189
- Title: Emergent Analogical Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創発的類推
- Authors: Taylor Webb, Keith J. Holyoak, Hongjing Lu
- Abstract要約: GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advent of large language models has reinvigorated debate over
whether human cognitive capacities might emerge in such generic models given
sufficient training data. Of particular interest is the ability of these models
to reason about novel problems zero-shot, without any direct training. In human
cognition, this capacity is closely tied to an ability to reason by analogy.
Here, we performed a direct comparison between human reasoners and a large
language model (the text-davinci-003 variant of GPT-3) on a range of analogical
tasks, including a non-visual matrix reasoning task based on the rule structure
of Raven's Standard Progressive Matrices. We found that GPT-3 displayed a
surprisingly strong capacity for abstract pattern induction, matching or even
surpassing human capabilities in most settings; preliminary tests of GPT-4
indicated even better performance. Our results indicate that large language
models such as GPT-3 have acquired an emergent ability to find zero-shot
solutions to a broad range of analogy problems.
- Abstract(参考訳): 近年の大規模言語モデルの出現は、十分な訓練データを得た一般的なモデルに人間の認知能力が出現するかどうかという議論を再燃させた。
特に興味深いのは、これらのモデルが直接訓練することなく、ゼロショットで新しい問題を推論する能力である。
人間の認知では、この能力は類推による推論能力と密接に結びついている。
そこで我々は,Ravenの標準進歩行列の規則構造に基づく非視覚的行列推論タスクを含む類推的タスクにおいて,人間の推論と大規模言語モデル(GPT-3のテキストダヴィンチ・003変種)の直接比較を行った。
その結果、GPT-3は、ほとんどの設定において、抽象パターン誘導、マッチング、さらには人間の能力を超越する驚くほど強い能力を示し、GPT-4の予備試験は、より優れた性能を示した。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
関連論文リスト
- Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - Probing the Creativity of Large Language Models: Can models produce
divergent semantic association? [9.992602859777689]
本研究では,認知的視点から大規模言語モデルの創造的思考を研究することを目的とする。
本研究では、モデルに無関係な単語を生成し、それらの間の意味的距離を計算するための創造性を客観的に測定する散発的アソシエーションタスク(DAT)を利用する。
以上の結果から,先進的な大規模言語モデルには,創造性の基礎となる基本的なプロセスである意味的関連性が存在することが示唆された。
論文 参考訳(メタデータ) (2023-10-17T11:23:32Z) - Response: Emergent analogical reasoning in large language models [0.034530027457862]
GPT-3は、オリジナルのタスクの最も単純なバリエーションを解決するのに失敗するが、人間のパフォーマンスは、修正されたすべてのバージョンで一貫して高い。
ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、データ記憶を除外するアプローチを開発することが重要である。
論文 参考訳(メタデータ) (2023-08-30T16:17:26Z) - Inductive reasoning in humans and large language models [0.0]
GPT-3.5 と GPT-4 をヒト誘導的推論における古典的問題に適用した。
GPT-3.5は人間の行動の多くの側面を捉えるのに苦労しているが、GPT-4はより成功している。
論文 参考訳(メタデータ) (2023-06-11T00:23:25Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Critical Thinking for Language Models [6.963299759354333]
本稿では,ニューラル自動回帰言語モデルの批判的思考カリキュラムに向けて第一歩を踏み出す。
我々は、GPT-2を訓練し、評価するために、人工的な議論文を生成する。
NLUベンチマークに対して一貫した有望な結果が得られる。
論文 参考訳(メタデータ) (2020-09-15T15:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。