論文の概要: OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving?
- arxiv url: http://arxiv.org/abs/2411.06198v1
- Date: Sat, 09 Nov 2024 14:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:56.484538
- Title: OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving?
- Title(参考訳): OpenAI-o1 ABテスト: o1モデルは、数学の問題解決において、本当に良い理由付けをしていますか?
- Authors: Leo Li, Ye Luo, Tingyou Pan,
- Abstract要約: OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
- 参考スコア(独自算出の注目度): 2.851415653352522
- License:
- Abstract: The Orion-1 model by OpenAI is claimed to have more robust logical reasoning capabilities than previous large language models. However, some suggest the excellence might be partially due to the model "memorizing" solutions, resulting in less satisfactory performance when prompted with problems not in the training data. We conduct a comparison experiment using two datasets: one consisting of International Mathematics Olympiad (IMO) problems, which is easily accessible; the other one consisting of Chinese National Team Training camp (CNT) problems, which have similar difficulty but not as publically accessible. We label the response for each problem and compare the performance between the two datasets. We conclude that there is no significant evidence to show that the model relies on memorizing problems and solutions. Also, we perform case studies to analyze some features of the model's response.
- Abstract(参考訳): OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
しかし、この卓越性は、部分的には「記憶する」解決策のモデルが原因で、トレーニングデータにない問題によって引き起こされた場合、満足のいく性能が低下する、という意見もある。
我々は,国際数学オリンピック(IMO)問題と中国国家チームトレーニングキャンプ(CNT)問題との2つのデータセットの比較実験を行った。
それぞれの問題に対する応答をラベル付けし、2つのデータセットのパフォーマンスを比較します。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
また,モデル応答の特徴を分析するケーススタディも実施する。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving [15.815363023014248]
本稿では,難解なクエリを合成フェーズに割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。
DARTは、合成フェーズ中に難しいクエリをより多くのトライアルに割り当て、難しいサンプルのより広範なトレーニングを可能にする。
データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
論文 参考訳(メタデータ) (2024-06-18T07:14:02Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities [25.857946070979576]
概念とHint-Annotated Math Problems (CHAMP) は、概念に注釈を付けた高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset [38.99073257782012]
本研究では,中国の高等学校における円錐部分の数学問題データセットであるConic10Kを提案する。
我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。
各問題に対して、高品質な形式表現、推論ステップ、最終解を提供する。
論文 参考訳(メタデータ) (2023-11-09T02:58:17Z) - Information-Theoretic Measures of Dataset Difficulty [54.538766940287864]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。
使用可能な情報の欠如として、フレーミングデータセットの難しさを考慮した情報理論的な視点を提案する。
論文 参考訳(メタデータ) (2021-10-16T00:21:42Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。