論文の概要: Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems
- arxiv url: http://arxiv.org/abs/2410.00151v4
- Date: Mon, 24 Feb 2025 21:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:31.201945
- Title: Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems
- Title(参考訳): Scheherazade: LLMにおけるChain-of-Thought Math ReasoningとChain-of-Problemsの評価
- Authors: Stephen Miner, Yoshiki Takashima, Simeng Han, Sam Kouteili, Ferhat Erata, Ruzica Piskac, Scott J Shapiro,
- Abstract要約: Scheherazadeは、大量の挑戦的な数学的推論ベンチマークを自動生成する手法である。
本稿では,前鎖法と後鎖法という,ランダムな分岐手法を含む2つの異なる連鎖法を提案する。
我々は,他のフロンティアモデルの性能低下がわずか数問の連鎖で急激に進行するのに対し,評価の結果,o1-previewのパフォーマンスは持続することを示した。
- 参考スコア(独自算出の注目度): 5.755472812258969
- License:
- Abstract: Benchmarks are critical for measuring Large Language Model (LLM) reasoning capabilities. Some benchmarks have even become the de facto indicator of such capabilities. However, as LLM reasoning capabilities improve, existing widely-used benchmarks such as GSM8K marginally encapsulate model reasoning differentials - most state-of-the-art models for example achieve over 94% accuracy on the GSM8K dataset (paperwithcode, 2024). While constructing harder benchmarks is possible, their creation is often manual, expensive, and unscalable. As such, we present Scheherazade, an automated approach to produce large quantities of challenging mathematical reasoning benchmarks by logically chaining a small starting set of problems. We propose two different chaining methods, forward chaining and backward chaining, which include randomized branching techniques to generate complex reasoning problems. We apply Scheherazade on GSM8K to create GSM8K-Scheherazade and evaluate 3 frontier LLMs and OpenAI's o1-preview on it. We show that while other frontier models' performance declines precipitously at only a few questions chained, our evaluation suggests o1-preview's performance persists, with the flagship OpenAI model the only one to perform better at backward reasoning. Our data and code are available at https://github.com/YoshikiTakashima/scheherazade-code-data.
- Abstract(参考訳): ベンチマークは、LLM(Large Language Model)推論能力の測定に不可欠である。
一部のベンチマークは、そのような機能の事実上の指標にもなっている。
しかし、LCM推論能力が向上するにつれて、GSM8Kのような既存の広く使われているベンチマークはモデル推論の差分を極端にカプセル化している。
厳しいベンチマークを構築することは可能だが、その作成は手作業で、高価で、スケールできないことが多い。
そこで我々は,少数の問題を論理的にチェーンすることで,大量の挑戦的な数学的推論ベンチマークを自動生成するSchherazadeを提案する。
本稿では, 複雑な推論問題を生成するために, ランダム分岐法を含む前方連鎖法と後方連鎖法という2つの異なる連鎖法を提案する。
GSM8KにSchherazadeを適用し、GSM8K-Scheherazadeを作成し、3つのフロンティアLSMとOpenAIのo1-previewを評価する。
他のフロンティアモデルのパフォーマンスは、わずか数質問で急激に低下するが、評価では、o1-previewのパフォーマンスは持続し、フラッグシップのOpenAIモデルだけが後方推論でパフォーマンスを向上することを示している。
私たちのデータとコードはhttps://github.com/YoshikiTakashima/scheherazade-code-dataで公開されています。
関連論文リスト
- Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models [24.266973481633755]
GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。
GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。
以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-07T17:36:37Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。
ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。