論文の概要: System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam
- arxiv url: http://arxiv.org/abs/2410.07114v3
- Date: Fri, 25 Oct 2024 07:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:17:22.817236
- Title: System 2 thinking in OpenAI's o1-preview model: Near-perfect performance on a mathematics exam
- Title(参考訳): OpenAIのo1-previewモデルにおけるシステム2思考:数学試験におけるほぼ完璧な性能
- Authors: Joost de Winter, Dimitra Dodou, Yke Bauke Eisma,
- Abstract要約: OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。
オランダの直観的Bの最終試験では,o1-previewモデルを2回試験した。
その結果、o1-previewは強く(97.8パーセント)、汚染は要因ではないことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The processes underlying human cognition are often divided into System 1, which involves fast, intuitive thinking, and System 2, which involves slow, deliberate reasoning. Previously, large language models were criticized for lacking the deeper, more analytical capabilities of System 2. In September 2024, OpenAI introduced the o1 model series, designed to handle System 2-like reasoning. While OpenAI's benchmarks are promising, independent validation is still needed. In this study, we tested the o1-preview model twice on the Dutch 'Mathematics B' final exam. It scored a near-perfect 76 and 74 out of 76 points. For context, only 24 out of 16,414 students in the Netherlands achieved a perfect score. By comparison, the GPT-4o model scored 66 and 62 out of 76, well above the Dutch average of 40.63 points. Neither model had access to the exam figures. Since there was a risk of model contamination (i.e., the knowledge cutoff of o1-preview and GPT-4o was after the exam was published online), we repeated the procedure with a new Mathematics B exam that was published after the cutoff date. The results again indicated that o1-preview performed strongly (97.8th percentile), which suggests that contamination was not a factor. We also show that there is some variability in the output of o1-preview, which means that sometimes there is 'luck' (the answer is correct) or 'bad luck' (the output has diverged into something that is incorrect). We demonstrate that a self-consistency approach, where repeated prompts are given and the most common answer is selected, is a useful strategy for identifying the correct answer. It is concluded that while OpenAI's new model series holds great potential, certain risks must be considered.
- Abstract(参考訳): 人間の認知の基礎となるプロセスは、しばしば、高速で直感的な思考を含むシステム1と、ゆっくりで意図的な推論を含むシステム2に分けられる。
以前は、システム2のより深く、より分析的な能力が欠如しているとして、大きな言語モデルが批判されていた。
2024年9月、OpenAIはシステム2のような推論を扱うために設計されたo1モデルシリーズを導入した。
OpenAIのベンチマークは有望だが、独立した検証が必要である。
本研究では,オランダの'数学B'最終試験において,o1-previewモデルを2回試験した。
76点中76点、74点に近かった。
オランダの学生16,414人中24人が完璧に得点した。
一方、GPT-4oはオランダ平均の40.63点を大きく上回る76点中66点と62点を記録した。
どちらのモデルも試験結果にアクセスできなかった。
モデル汚染のリスク (o1-preview と GPT-4o の知識遮断はオンライン公開後に発生した) のため, カットオフ日後に発表された新しい数学 B 試験でこの手順を繰り返した。
結果は再び、o1-previewが強く(97.8パーセント)、汚染は要因ではないことを示している。
また、o1-previewの出力にばらつきがあることが示され、これは時々'luck'(答えが正しい)や'bad luck'(出力が正しくないものに分岐した)が存在することを意味する。
繰り返しプロンプトが与えられ、最も一般的な解答が選択される自己整合アプローチが、正しい解答を特定する上で有用な戦略であることを実証する。
OpenAIの新しいモデルシリーズは大きな可能性を秘めているが、あるリスクを考慮する必要があると結論付けている。
関連論文リスト
- OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving? [2.851415653352522]
OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
論文 参考訳(メタデータ) (2024-11-09T14:47:52Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1 [20.093907710471317]
o1はOpenAIの新しいシステムで、従来の言語モデルと異なり、推論に最適化されている。
多くの場合、o1は従来のLLMよりも大幅に優れていた。
しかし、o1は以前のシステムで観測したのと同じ定性的傾向を示している。
論文 参考訳(メタデータ) (2024-10-02T17:50:19Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Explanation-by-Example Based on Item Response Theory [0.0]
本研究は, 項目応答理論(IRT)を, モデルを説明し, 説明による信頼性のレベルを測定するためのツールとして検討する。
テストセットからすると、83.8%のエラーはIRTがモデルを信頼できないと指摘しているインスタンスからのものである。
論文 参考訳(メタデータ) (2022-10-04T14:36:33Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。