論文の概要: Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems
- arxiv url: http://arxiv.org/abs/2410.00151v3
- Date: Fri, 11 Oct 2024 03:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 14:40:28.502371
- Title: Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems
- Title(参考訳): Scheherazade: LLMにおけるChain-of-Thought Math ReasoningとChain-of-Problemsの評価
- Authors: Stephen Miner, Yoshiki Takashima, Simeng Han, Ferhat Erata, Timos Antonopoulos, Ruzica Piskac, Scott J Shapiro,
- Abstract要約: Scheherazadeは、論理的連鎖問題により、挑戦的な数学的推論ベンチマークを生成するための自動アプローチである。
その結果,フロンティアモデルの性能低下はわずか数問の連鎖で急激に低下するが,予備評価では,最大5問の逆連鎖が継続することが示された。
- 参考スコア(独自算出の注目度): 7.011907181213453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks are critical for measuring progress of math reasoning abilities of Large Language Models (LLMs). However, existing widely-used benchmarks such as GSM8K have been rendered less useful as multiple cutting-edge LLMs achieve over 94% accuracy. While harder benchmarks have been proposed, their creation is often manual and expensive. We present Scheherazade, an automated approach for producing challenging mathematical reasoning benchmarks by logically chaining mathematical reasoning problems. We propose two different chaining methods, forward chaining and backward chaining, which require reasoning forward and backward through the chain respectively. We apply Scheherazade on GSM8K to create GSM8K-Scheherazade and evaluate 3 frontier LLMs and OpenAI's o1-preview on it. We show that while frontier models' performance declines precipitously at only a few questions chained, a preliminary evaluation suggests o1-preview performance persists up to 5 questions chained backwards. In addition, while all other models perform worse when problems are chained backwards, o1-preview performs better on backward-chained benchmarks. We will release the dataset and code publicly.
- Abstract(参考訳): ベンチマークは、Large Language Models (LLMs) の数学推論能力の進歩を測定するために重要である。
しかし、GSM8Kのような既存の広く使われているベンチマークは、複数の最先端LCMが94%以上の精度を達成するため、あまり役に立たない。
より厳しいベンチマークが提案されているが、その作成は手作業で行われ、高価であることが多い。
本稿では,数理推論問題を論理的に連鎖させることにより,挑戦的な数理推論ベンチマークを自動生成するSchherazadeを提案する。
本稿では,前鎖法と後鎖法という2つの異なる連鎖法を提案する。
GSM8KにSchherazadeを適用し、GSM8K-Scheherazadeを作成し、3つのフロンティアLSMとOpenAIのo1-previewを評価する。
その結果,フロンティアモデルの性能低下はわずか数問の連鎖で急激に低下するが,予備評価では,最大5問の逆連鎖が継続することが示された。
加えて、他のモデルはすべて、問題が逆向きにチェーンされている場合、パフォーマンスが悪くなるが、o1-previewは逆向きにチェーンされたベンチマークでパフォーマンスが良くなる。
データセットとコードを公開します。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.266973481633755]
GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。
GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。
以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-07T17:36:37Z) - A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。