論文の概要: Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH
- arxiv url: http://arxiv.org/abs/2501.18576v1
- Date: Thu, 30 Jan 2025 18:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:25.708817
- Title: Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH
- Title(参考訳): Token-Hungry, but precise:DeepSeek R1は、MATHにおけるマルチステップ推論の必要性を強調
- Authors: Evgenii Evstafev,
- Abstract要約: 本研究では,30の難解な数学的問題に対して,DeepSeek R1言語モデルの性能について検討する。
DeepSeek R1はこれらの複雑な問題に対して優れた精度を達成するが、他のモデルよりもはるかに多くのトークンを生成する。
この結果は,大規模言語モデルを用いた数学的問題解決における精度と効率のトレードオフを浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates the performance of the DeepSeek R1 language model on 30 challenging mathematical problems derived from the MATH dataset, problems that previously proved unsolvable by other models under time constraints. Unlike prior work, this research removes time limitations to explore whether DeepSeek R1's architecture, known for its reliance on token-based reasoning, can achieve accurate solutions through a multi-step process. The study compares DeepSeek R1 with four other models (gemini-1.5-flash-8b, gpt-4o-mini-2024-07-18, llama3.1:8b, and mistral-8b-latest) across 11 temperature settings. Results demonstrate that DeepSeek R1 achieves superior accuracy on these complex problems but generates significantly more tokens than other models, confirming its token-intensive approach. The findings highlight a trade-off between accuracy and efficiency in mathematical problem-solving with large language models: while DeepSeek R1 excels in accuracy, its reliance on extensive token generation may not be optimal for applications requiring rapid responses. The study underscores the importance of considering task-specific requirements when selecting an LLM and emphasizes the role of temperature settings in optimizing performance.
- Abstract(参考訳): 本研究は,MATHデータセットから導出される30の難解な数学的問題に対するDeepSeek R1言語モデルの性能について検討する。
従来の研究とは違って、トークンベースの推論に依存することで知られているDeepSeek R1のアーキテクチャが、マルチステッププロセスを通じて正確なソリューションを実現できるかどうかを調査する時間制限を取り除く。
この研究では、DeepSeek R1と他の4つのモデル(gemini-1.5-flash-8b、gpt-4o-mini-2024-07-18、llama3.1:8b、mistral-8b-latest)を11温度設定で比較した。
その結果、DeepSeek R1は他のモデルよりもはるかに多くのトークンを生成し、トークン集約的なアプローチを確認した。
DeepSeek R1は精度が優れているが、広範囲なトークン生成への依存は、迅速な応答を必要とするアプリケーションには最適ではないかもしれない。
本研究は, LLMを選択する際のタスク固有の要件を検討することの重要性を強調し, 性能最適化における温度設定の役割を強調した。
関連論文リスト
- Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z) - Evaluating the Systematic Reasoning Abilities of Large Language Models through Graph Coloring [0.0]
本研究では,LLMの計算能力を評価するためのグラフカラー化手法について検討する。
我々は、$k$-coloringのデータセット上で、Claude 3.5 Sonnet、Llama 3.1 405B、Gemini 1.5 Pro、GPT-4o、o1-mini、DeepSeek-R1をテストする。
論文 参考訳(メタデータ) (2025-02-10T22:27:02Z) - DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [147.16121855209246]
第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介します。
DeepSeek-R1-Zeroは大規模な強化学習を通じて訓練されている。
DeepSeek-R1は、RLの前にマルチステージトレーニングとコールドスタートデータを組み込んでいる。
論文 参考訳(メタデータ) (2025-01-22T15:19:35Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - An Experimental Review on Deep Learning Architectures for Time Series
Forecasting [0.0]
時系列予測のための最も広範な深層学習研究を提供する。
すべての研究モデルの中で、結果は、長期短期記憶(LSTM)と畳み込みネットワーク(CNN)が最良の代替手段であることを示しています。
CNNは、異なるパラメータ設定の下で結果の変動が少なく、比較性能を達成し、効率も向上します。
論文 参考訳(メタデータ) (2021-03-22T17:58:36Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。