論文の概要: Decoding Stumpers: Large Language Models vs. Human Problem-Solvers
- arxiv url: http://arxiv.org/abs/2310.16411v1
- Date: Wed, 25 Oct 2023 06:54:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:19:14.486544
- Title: Decoding Stumpers: Large Language Models vs. Human Problem-Solvers
- Title(参考訳): Decoding Stumper: 大規模言語モデルとヒューマン問題ソルバー
- Authors: Alon Goldstein, Miriam Havin, Roi Reichart and Ariel Goldstein
- Abstract要約: 4つの最先端の大規模言語モデルの性能を人的参加者と比較する。
次世代のLSMは、ステンパーの解決と人間のパフォーマンスに勝る。
人間は、同じ問題に対する解決策を検証するのに優れたスキルを示す。
- 参考スコア(独自算出の注目度): 14.12892960275563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the problem-solving capabilities of Large Language
Models (LLMs) by evaluating their performance on stumpers, unique single-step
intuition problems that pose challenges for human solvers but are easily
verifiable. We compare the performance of four state-of-the-art LLMs
(Davinci-2, Davinci-3, GPT-3.5-Turbo, GPT-4) to human participants. Our
findings reveal that the new-generation LLMs excel in solving stumpers and
surpass human performance. However, humans exhibit superior skills in verifying
solutions to the same problems. This research enhances our understanding of
LLMs' cognitive abilities and provides insights for enhancing their
problem-solving potential across various domains.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の課題解決能力について,人間の問題解決に課題を提起する独特な単一ステップ直観問題であるステンパーの性能を評価することによって検討する。
本研究は,4種類の最先端LCM(Davinci-2,Davinci-3,GPT-3.5-Turbo,GPT-4)とヒトとの比較を行った。
以上の結果から, 次世代LSMはステンパーの解決に優れ, 人的性能を上回っていることが明らかとなった。
しかし、人間は同じ問題に対する解決策を検証する優れた技術を示す。
本研究は,llmsの認知能力の理解を深め,様々な領域にまたがる問題解決可能性を高めるための洞察を提供する。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Predicting challenge moments from students' discourse: A comparison of
GPT-4 to two traditional natural language processing approaches [0.3826704341650507]
本研究では,3つの異なる自然言語処理モデルを活用する可能性について検討する。
専門知識ルールベースモデル,教師付き機械学習モデル,言語モデル(LLM)について検討した。
その結果,教師付きMLとLLMのアプローチは両タスクとも良好に動作したことがわかった。
論文 参考訳(メタデータ) (2024-01-03T11:54:30Z) - Competition-Level Problems are Effective LLM Evaluators [124.7648712310141]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [90.62345519188655]
本稿では,現代大言語モデル(LLM)の創造的問題解決能力について,制約のある環境で検討する。
私たちは1,600の現実世界の問題からなる自動生成されたデータセットであるMacGyverを作成します。
MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Evaluating the Deductive Competence of Large Language Models [0.26206189324400636]
本稿では,いくつかの大規模言語モデル (LLM) が,古典的な帰納的推論問題を解くことができるかどうかを考察する。
性能は条件によって異なるが、全体的な性能は改善されない。
人的パフォーマンスとは違って,プレゼンテーション形式やコンテンツとのインタラクションが予期せぬ形で行われていることが判明した。
論文 参考訳(メタデータ) (2023-09-11T13:47:07Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。