論文の概要: Response: Emergent analogical reasoning in large language models
- arxiv url: http://arxiv.org/abs/2308.16118v2
- Date: Wed, 1 May 2024 00:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 20:30:46.661849
- Title: Response: Emergent analogical reasoning in large language models
- Title(参考訳): 応答:大規模言語モデルにおける創発的類似推論
- Authors: Damian Hodel, Jevin West,
- Abstract要約: GPT-3は、オリジナルのタスクの最も単純なバリエーションを解決するのに失敗するが、人間のパフォーマンスは、修正されたすべてのバージョンで一貫して高い。
ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、データ記憶を除外するアプローチを開発することが重要である。
- 参考スコア(独自算出の注目度): 0.034530027457862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In their recent Nature Human Behaviour paper, "Emergent analogical reasoning in large language models," (Webb, Holyoak, and Lu, 2023) the authors argue that "large language models such as GPT-3 have acquired an emergent ability to find zero-shot solutions to a broad range of analogy problems." In this response, we provide counterexamples of the letter string analogies. In our tests, GPT-3 fails to solve simplest variations of the original tasks, whereas human performance remains consistently high across all modified versions. Zero-shot reasoning is an extraordinary claim that requires extraordinary evidence. We do not see that evidence in our experiments. To strengthen claims of humanlike reasoning such as zero-shot reasoning, it is important that the field develop approaches that rule out data memorization.
- Abstract(参考訳): 最近のNature Human Behaviourの論文"Emergent analogical reasoning in large language model" (Webb, Holyoak, Lu, 2023)では、著者らは「GPT-3のような大規模言語モデルは、幅広い類推問題に対するゼロショットの解を見つける能力を得た」と主張している。
この反応では、文字列類似の逆例を提供する。
我々のテストでは、GPT-3は元のタスクの最も単純なバリエーションを解決するのに失敗する。
ゼロショット推論は、異常な証拠を必要とする並外れた主張である。
私たちの実験ではその証拠は見当たらない。
ゼロショット推論などのヒューマンライクな推論の主張を強化するためには、フィールドがデータ記憶を除外するアプローチを開発することが重要である。
関連論文リスト
- Evaluating the Robustness of Analogical Reasoning in Large Language Models [6.5855735579366685]
LLMのアナログ生成能力のロバスト性について検討した。
我々は,従来の類推問題に対するロバスト性について,人間とGPTモデルを検証した。
人間とは異なり、GPTモデルの性能は答え順序の影響を受けやすい。
論文 参考訳(メタデータ) (2024-11-21T15:25:08Z) - Abstraction-of-Thought Makes Language Models Better Reasoners [79.72672444664376]
AoT(Abstraction-of-Thought)と呼ばれる新しい構造化推論形式を導入する。
AoTのユニークな点は、推論プロセス内での抽象化のさまざまなレベルに対する明示的な要件にある。
提案するAoTコレクションは,AoT推論プロセスを用いた348kの高品質サンプルからなる汎用微調整データセットである。
論文 参考訳(メタデータ) (2024-06-18T09:46:44Z) - Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - UNcommonsense Reasoning: Abductive Reasoning about Uncommon Situations [62.71847873326847]
異常、予期せぬ、そしてありそうもない状況をモデル化する能力について検討する。
予期せぬ結果のコンテキストが与えられた場合、このタスクは説明を生成するために故意に推論する必要がある。
私たちはUNcommonsenseという新しい英語コーパスをリリースします。
論文 参考訳(メタデータ) (2023-11-14T19:00:55Z) - Emergent Analogical Reasoning in Large Language Models [1.5469452301122177]
GPT-3は、多くの設定において、抽象的なパターン誘導、マッチング、さらには人間の能力を超える、驚くほど強力な能力を持っていることを示す。
以上の結果から, GPT-3のような大規模言語モデルでは, 幅広い類似問題に対するゼロショット解を求める能力が得られている。
論文 参考訳(メタデータ) (2022-12-19T00:04:56Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Critical Thinking for Language Models [6.963299759354333]
本稿では,ニューラル自動回帰言語モデルの批判的思考カリキュラムに向けて第一歩を踏み出す。
我々は、GPT-2を訓練し、評価するために、人工的な議論文を生成する。
NLUベンチマークに対して一貫した有望な結果が得られる。
論文 参考訳(メタデータ) (2020-09-15T15:49:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。