論文の概要: Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH
- arxiv url: http://arxiv.org/abs/2501.18576v1
- Date: Thu, 30 Jan 2025 18:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:25.708817
- Title: Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH
- Title(参考訳): Token-Hungry, but precise:DeepSeek R1は、MATHにおけるマルチステップ推論の必要性を強調
- Authors: Evgenii Evstafev,
- Abstract要約: 本研究では,30の難解な数学的問題に対して,DeepSeek R1言語モデルの性能について検討する。
DeepSeek R1はこれらの複雑な問題に対して優れた精度を達成するが、他のモデルよりもはるかに多くのトークンを生成する。
この結果は,大規模言語モデルを用いた数学的問題解決における精度と効率のトレードオフを浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates the performance of the DeepSeek R1 language model on 30 challenging mathematical problems derived from the MATH dataset, problems that previously proved unsolvable by other models under time constraints. Unlike prior work, this research removes time limitations to explore whether DeepSeek R1's architecture, known for its reliance on token-based reasoning, can achieve accurate solutions through a multi-step process. The study compares DeepSeek R1 with four other models (gemini-1.5-flash-8b, gpt-4o-mini-2024-07-18, llama3.1:8b, and mistral-8b-latest) across 11 temperature settings. Results demonstrate that DeepSeek R1 achieves superior accuracy on these complex problems but generates significantly more tokens than other models, confirming its token-intensive approach. The findings highlight a trade-off between accuracy and efficiency in mathematical problem-solving with large language models: while DeepSeek R1 excels in accuracy, its reliance on extensive token generation may not be optimal for applications requiring rapid responses. The study underscores the importance of considering task-specific requirements when selecting an LLM and emphasizes the role of temperature settings in optimizing performance.
- Abstract(参考訳): 本研究は,MATHデータセットから導出される30の難解な数学的問題に対するDeepSeek R1言語モデルの性能について検討する。
従来の研究とは違って、トークンベースの推論に依存することで知られているDeepSeek R1のアーキテクチャが、マルチステッププロセスを通じて正確なソリューションを実現できるかどうかを調査する時間制限を取り除く。
この研究では、DeepSeek R1と他の4つのモデル(gemini-1.5-flash-8b、gpt-4o-mini-2024-07-18、llama3.1:8b、mistral-8b-latest)を11温度設定で比較した。
その結果、DeepSeek R1は他のモデルよりもはるかに多くのトークンを生成し、トークン集約的なアプローチを確認した。
DeepSeek R1は精度が優れているが、広範囲なトークン生成への依存は、迅速な応答を必要とするアプリケーションには最適ではないかもしれない。
本研究は, LLMを選択する際のタスク固有の要件を検討することの重要性を強調し, 性能最適化における温度設定の役割を強調した。
関連論文リスト
- A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Towards Sustainable Learning: Coresets for Data-efficient Deep Learning [9.51481812606879]
CRESTは、データセットに関する厳密な理論的サブセット実験を備えた、最初のスケーラブルなサブセットディープネットワークフレームワークである。
CRESTは、非イメージ関数の最も価値のある例を特定している。
論文 参考訳(メタデータ) (2023-06-02T02:51:08Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Inference from Real-World Sparse Measurements [21.194357028394226]
実世界の問題は、しばしば複雑で非構造的な測定セットが伴うが、これはセンサーが空間または時間に狭く配置されているときに起こる。
セットからセットまで様々な位置で測定セットを処理し、どこででも読み出しを抽出できるディープラーニングアーキテクチャは、方法論的に困難である。
本稿では,適用性と実用的堅牢性に着目したアテンションベースモデルを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:42:20Z) - Critical Bach Size Minimizes Stochastic First-Order Oracle Complexity of
Deep Learning Optimizer using Hyperparameters Close to One [0.0]
学習速度が小さいこと,1に近いハイパーパラメータ,大きなバッチサイズが,損失関数を最小化するディープニューラルネットワークのモデルパラメータを見つけることができることを示す。
その結果,Adamは一定の学習率と1に近いハイパーパラメータを用いており,SFOの複雑性を最小化する臨界バッチサイズはモメンタムや勾配勾配よりも早く収束することがわかった。
論文 参考訳(メタデータ) (2022-08-21T06:11:23Z) - An Experimental Review on Deep Learning Architectures for Time Series
Forecasting [0.0]
時系列予測のための最も広範な深層学習研究を提供する。
すべての研究モデルの中で、結果は、長期短期記憶(LSTM)と畳み込みネットワーク(CNN)が最良の代替手段であることを示しています。
CNNは、異なるパラメータ設定の下で結果の変動が少なく、比較性能を達成し、効率も向上します。
論文 参考訳(メタデータ) (2021-03-22T17:58:36Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。