論文の概要: Decoding Stumpers: Large Language Models vs. Human Problem-Solvers
- arxiv url: http://arxiv.org/abs/2310.16411v1
- Date: Wed, 25 Oct 2023 06:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:19:14.486544
- Title: Decoding Stumpers: Large Language Models vs. Human Problem-Solvers
- Title(参考訳): Decoding Stumper: 大規模言語モデルとヒューマン問題ソルバー
- Authors: Alon Goldstein, Miriam Havin, Roi Reichart and Ariel Goldstein
- Abstract要約: 4つの最先端の大規模言語モデルの性能を人的参加者と比較する。
次世代のLSMは、ステンパーの解決と人間のパフォーマンスに勝る。
人間は、同じ問題に対する解決策を検証するのに優れたスキルを示す。
- 参考スコア(独自算出の注目度): 14.12892960275563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem-solving capabilities of Large Language
Models (LLMs) by evaluating their performance on stumpers, unique single-step
intuition problems that pose challenges for human solvers but are easily
verifiable. We compare the performance of four state-of-the-art LLMs
(Davinci-2, Davinci-3, GPT-3.5-Turbo, GPT-4) to human participants. Our
findings reveal that the new-generation LLMs excel in solving stumpers and
surpass human performance. However, humans exhibit superior skills in verifying
solutions to the same problems. This research enhances our understanding of
LLMs' cognitive abilities and provides insights for enhancing their
problem-solving potential across various domains.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の課題解決能力について,人間の問題解決に課題を提起する独特な単一ステップ直観問題であるステンパーの性能を評価することによって検討する。
本研究は,4種類の最先端LCM(Davinci-2,Davinci-3,GPT-3.5-Turbo,GPT-4)とヒトとの比較を行った。
以上の結果から, 次世代LSMはステンパーの解決に優れ, 人的性能を上回っていることが明らかとなった。
しかし、人間は同じ問題に対する解決策を検証する優れた技術を示す。
本研究は,llmsの認知能力の理解を深め,様々な領域にまたがる問題解決可能性を高めるための洞察を提供する。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Easy Problems That LLMs Get Wrong [0.0]
大規模言語モデル(LLM)の限界を評価するために設計された包括的な言語ベンチマークを導入する。
一連の簡単な質問を通じて、人間が簡単に管理するタスクを実行するための、よく考えられたモデルの重大な制限を明らかにする。
論文 参考訳(メタデータ) (2024-05-30T02:09:51Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Predicting challenge moments from students' discourse: A comparison of
GPT-4 to two traditional natural language processing approaches [0.3826704341650507]
本研究では,3つの異なる自然言語処理モデルを活用する可能性について検討する。
専門知識ルールベースモデル,教師付き機械学習モデル,言語モデル(LLM)について検討した。
その結果,教師付きMLとLLMのアプローチは両タスクとも良好に動作したことがわかった。
論文 参考訳(メタデータ) (2024-01-03T11:54:30Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Evaluating the Deductive Competence of Large Language Models [0.2218292673050528]
本稿では,いくつかの大規模言語モデル (LLM) が,古典的な帰納的推論問題を解くことができるかどうかを考察する。
性能は条件によって異なるが、全体的な性能は改善されない。
人的パフォーマンスとは違って,プレゼンテーション形式やコンテンツとのインタラクションが予期せぬ形で行われていることが判明した。
論文 参考訳(メタデータ) (2023-09-11T13:47:07Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。