論文の概要: System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam
- arxiv url: http://arxiv.org/abs/2410.07114v1
- Date: Fri, 25 Oct 2024 07:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:17:22.872322
- Title: System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam
- Title(参考訳): OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能
- Authors: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma,
- Abstract要約: OpenAIは、システム2のような推論を扱うために特別に設計されたO1モデルシリーズを導入した。
本研究では,オランダの「B」最終試験において,O1-previewモデルを2回試験した。
76点中76点、73点がオランダ平均の40.63点を大きく上回った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The processes underlying human cognition are often divided into two systems: System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the O1 model series, specifically designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the O1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 73 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 61 out of 76, well above the Dutch average of 40.63 points. The O1-preview model completed the exam in around 10 minutes, while GPT-4o took 3 minutes, and neither model had access to the exam figures. Although O1-preview had the ability to achieve a perfect score, its performance showed some variability, as it made occasional mistakes with repeated prompting. This suggests that the self-consistency method, where the consensus output is selected, could improve accuracy. We conclude that while OpenAI's new model series holds great potential, certain risks must be considered.
- Abstract(参考訳): 人間の認知の根底にあるプロセスは、しばしば2つのシステムに分けられる: システム1は、速く直感的な思考を伴い、システム2は、ゆっくりと、意図的な推論を行う。
以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。
2024年9月、OpenAIはシステム2のような推論を扱うために特別に設計されたO1モデルシリーズを導入した。
OpenAIのベンチマークは有望だが、独立した検証が必要である。
本研究では,オランダの'Mathematics B'最終試験において,O1-previewモデルを2回試験した。
76点中76点、73点に近かった。
オランダの学生16,414人中24人が完璧に得点した。
一方、GPT-4oはオランダ平均の40.63点を大きく上回る76点中66点と61点を記録した。
O1-プレビューモデルは10分で試験を完了し、GPT-4oは3分で、どちらのモデルも試験結果にアクセスできなかった。
O1-previewは完璧なスコアを達成する能力を持っていたが、その性能は、繰り返しのプロンプトで時折間違いを犯したため、若干のばらつきを示した。
これは、コンセンサス出力が選択された自己整合性手法が精度を向上させることを示唆している。
OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。
関連論文リスト
- OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving? [2.851415653352522]
OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
論文 参考訳(メタデータ) (2024-11-09T14:47:52Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 [20.093907710471317]
o1はOpenAIの新しいシステムで、従来の言語モデルと異なり、推論に最適化されている。
多くの場合、o1は従来のLLMよりも大幅に優れていた。
しかし、o1は以前のシステムで観測したのと同じ定性的傾向を示している。
論文 参考訳(メタデータ) (2024-10-02T17:50:19Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Explanation-by-Example Based on Item Response Theory [0.0]
本研究は, 項目応答理論(IRT)を, モデルを説明し, 説明による信頼性のレベルを測定するためのツールとして検討する。
テストセットからすると、83.8%のエラーはIRTがモデルを信頼できないと指摘しているインスタンスからのものである。
論文 参考訳(メタデータ) (2022-10-04T14:36:33Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。