論文の概要: Can OpenAI o1 outperform humans in higher-order cognitive thinking?
- arxiv url: http://arxiv.org/abs/2412.05753v1
- Date: Sat, 07 Dec 2024 21:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:41.307675
- Title: Can OpenAI o1 outperform humans in higher-order cognitive thinking?
- Title(参考訳): OpenAI o1は高次認知思考において人間より優れているか?
- Authors: Ehsan Latif, Yifan Zhou, Shuchen Guo, Lehong Shi, Yizhu Gao, Matthew Nyaaba, Arne Bewerdorff, Xiantong Yang, Xiaoming Zhai,
- Abstract要約: 本研究では,高次認知領域におけるOpenAIのo1-previewモデルの性能を評価する。
o1-preview は Ennis-Weir Critical Thinking Essay Test (EWCTET) で平均24.33得点を達成した
創造的な思考タスクにおいて、モデルは2.98、SD = 0.73の独創性スコアを達成し、人間の平均である1.74(z = 0.71)よりも高い。
o1-previewは構造化タスクに優れていたが、問題解決と適応推論の限界が見られた。
- 参考スコア(独自算出の注目度): 3.6271008284507533
- License:
- Abstract: This study evaluates the performance of OpenAI's o1-preview model in higher-order cognitive domains, including critical thinking, systematic thinking, computational thinking, data literacy, creative thinking, logical reasoning, and scientific reasoning. Using established benchmarks, we compared the o1-preview models's performance to human participants from diverse educational levels. o1-preview achieved a mean score of 24.33 on the Ennis-Weir Critical Thinking Essay Test (EWCTET), surpassing undergraduate (13.8) and postgraduate (18.39) participants (z = 1.60 and 0.90, respectively). In systematic thinking, it scored 46.1, SD = 4.12 on the Lake Urmia Vignette, significantly outperforming the human mean (20.08, SD = 8.13, z = 3.20). For data literacy, o1-preview scored 8.60, SD = 0.70 on Merk et al.'s "Use Data" dimension, compared to the human post-test mean of 4.17, SD = 2.02 (z = 2.19). On creative thinking tasks, the model achieved originality scores of 2.98, SD = 0.73, higher than the human mean of 1.74 (z = 0.71). In logical reasoning (LogiQA), it outperformed humans with average 90%, SD = 10% accuracy versus 86%, SD = 6.5% (z = 0.62). For scientific reasoning, it achieved near-perfect performance (mean = 0.99, SD = 0.12) on the TOSLS,, exceeding the highest human scores of 0.85, SD = 0.13 (z = 1.78). While o1-preview excelled in structured tasks, it showed limitations in problem-solving and adaptive reasoning. These results demonstrate the potential of AI to complement education in structured assessments but highlight the need for ethical oversight and refinement for broader applications.
- Abstract(参考訳): 本研究では, 批判的思考, 体系的思考, 計算的思考, データリテラシー, 創造的思考, 論理的推論, 科学的推論を含む, 高次認知領域におけるOpenAIのo1-previewモデルの性能を評価する。
確立されたベンチマークを用いて,o1-previewモデルの性能を,多様な教育レベルの人的参加者と比較した。
o1-preview は Ennis-Weir Critical Thinking Essay Test (EWCTET) で平均24.33点を獲得し、大学生 (13.8) と大学院(18.39) の参加者 (z = 1.60, 0.90) を上回った。
体系的思考では、ウルミア・ヴィニゲット湖で46.1, SD = 4.12 を獲得し、人間の平均値(20.08, SD = 8.13, z = 3.20)を大きく上回った。
データリテラシーでは、O1-previewはMerk et alの"Use Data"次元で8.60、SD = 0.70と、人間のポストテスト平均である4.17、SD = 2.02(z = 2.19)と比較された。
創造的な思考タスクにおいて、モデルは2.98、SD = 0.73の独創性スコアを達成し、人間の平均である1.74(z = 0.71)よりも高かった。
論理的推論(LogiQA)では、平均90%、SD = 10%、SD = 6.5%(z = 0.62)よりも優れていた。
科学的理由から、TOSLSのほぼ完全な性能(平均0.99、SD = 0.12)を達成し、最高スコアは0.85、SD = 0.13(z = 1.78)を超えた。
o1-previewは構造化タスクに優れていたが、問題解決と適応推論の限界が見られた。
これらの結果は、構造化された評価における教育を補完するAIの可能性を示しているが、より広範なアプリケーションに対する倫理的監視と改善の必要性を強調している。
関連論文リスト
- Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - A Systematic Assessment of OpenAI o1-Preview for Higher Order Thinking in Education [34.66303311392822]
本研究は,14次元にわたる高次認知タスクを行うOpenAI o1-previewの能力を評価する。
我々は,エニス=ヴァイア臨界思考評価テストや生物システム思考テストのような検証済みの機器を用いて,o1-previewのパフォーマンスと人的パフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-10-11T20:30:16Z) - System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam [0.0]
OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。
本研究では,オランダの「B」最終試験において,o1-previewモデルを2回試験した。
その結果,o1-previewは強い効果(9位パーセンタイル)を示し,汚染は要因ではないことが示された。
論文 参考訳(メタデータ) (2024-09-19T19:48:31Z) - Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - Uncertainty-inspired Open Set Learning for Retinal Anomaly
Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。
しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。
UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文 参考訳(メタデータ) (2023-04-08T10:47:41Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Partial success in closing the gap between human and machine vision [30.78663978510427]
数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
論文 参考訳(メタデータ) (2021-06-14T13:23:35Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。