論文の概要: Systematic Optimization of Open Source Large Language Models for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2509.07238v1
- Date: Mon, 08 Sep 2025 21:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.129671
- Title: Systematic Optimization of Open Source Large Language Models for Mathematical Reasoning
- Title(参考訳): 数学的推論のためのオープンソースの大言語モデルの体系的最適化
- Authors: Pranav Pawar, Dhwaj Jain, Varun Gupta, Kaustav Dedhia, Dashrath Kale, Sudhir Dhekane,
- Abstract要約: 本稿では,数学的推論タスクのための微調整モデルパラメータについて実践的検討を行う。
数学的推論タスクに関する5つの最先端モデルに対して、水平に最適化されたフレームワークが導入された。
- 参考スコア(独自算出の注目度): 1.8254074486719114
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper presents a practical investigation into fine-tuning model parameters for mathematical reasoning tasks through experimenting with various configurations including randomness control, reasoning depth, and sampling strategies, careful tuning demonstrates substantial improvements in efficiency as well as performance. A holistically optimized framework is introduced for five state-of-the-art models on mathematical reasoning tasks, exhibiting significant performance boosts while maintaining solution correctness. Through systematic parameter optimization across Qwen2.5-72B, Llama-3.1-70B, DeepSeek-V3, Mixtral-8x22B, and Yi-Lightning, consistent efficiency gains are demonstrated with 100% optimization success rate. The methodology achieves an average 29.4% reduction in computational cost and 23.9% improvement in inference speed across all tested models. This framework systematically searches parameter spaces including temperature (0.1-0.5), reasoning steps (4-12), planning periods (1-4), and nucleus sampling (0.85-0.98), determining optimal configurations through testing on mathematical reasoning benchmarks. Critical findings show that lower temperature regimes (0.1-0.4) and reduced reasoning steps (4-6) consistently enhance efficiency without compromising accuracy. DeepSeek-V3 achieves the highest accuracy at 98%, while Mixtral-8x22B delivers the most cost-effective performance at 361.5 tokens per accurate response. Key contributions include: (1) the first comprehensive optimization study for five diverse SOTA models in mathematical reasoning, (2) a standardized production-oriented parameter optimization framework, (3) discovery of universal optimization trends applicable across model architectures, and (4) production-ready configurations with extensive performance characterization.
- Abstract(参考訳): 本稿では、ランダム性制御、推論深度、サンプリング戦略などの様々な構成を実験することにより、数学的推論タスクの微調整モデルパラメータについて実践的な研究を行い、注意的チューニングは効率と性能の大幅な改善を実証する。
数学的推論タスクに関する5つの最先端モデルに対して、論理的に最適化されたフレームワークを導入し、解の正しさを維持しながら、大幅な性能向上を示す。
Qwen2.5-72B、Llama-3.1-70B、DeepSeek-V3、Mixtral-8x22B、Yi-Lightningにまたがる体系的なパラメータ最適化を通じて、一貫した効率向上を100%の最適化成功率で示す。
この手法は平均29.4%の計算コスト削減と23.9%の推論速度向上を実現している。
このフレームワークは、温度(0.1-0.5)、推論ステップ(4-12)、計画期間(1-4)、核サンプリング(0.85-0.98)を含むパラメータ空間を体系的に探索し、数学的推論ベンチマークを用いて最適構成を決定する。
批判的な結果は、低い温度状態 (0.1-0.4) と低い推理ステップ (4-6) が、精度を損なうことなく、常に効率を向上していることを示している。
DeepSeek-V3は98%、Mixtral-8x22Bは361.5トークン/正確に応答する。
主な貢献は、(1)数学的推論における5つの異なるSOTAモデルに対する最初の総合的な最適化研究、(2)標準化された生産指向パラメータ最適化フレームワーク、(3)モデルアーキテクチャに適用可能な普遍的な最適化トレンドの発見、(4)広範な性能評価を備えた生産対応構成である。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Don't Think Longer, Think Wisely: Optimizing Thinking Dynamics for Large Reasoning Models [68.96619605651155]
大規模推論モデル(LRM)は、過度に考えることによって出力長を大幅に増加させる可能性がある。
モデル生成推論経路を異なる思考パターンに分割する動的最適化フレームワークを提案する。
提案手法は, 最大12%の精度向上を実現し, トークン使用量を約5,000から3,000に削減する。
論文 参考訳(メタデータ) (2025-05-27T20:59:29Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Inference Scaling vs Reasoning: An Empirical Analysis of Compute-Optimal LLM Problem-Solving [0.0]
大規模言語モデル(LLM)の最近の進歩は、精度と推論能力の最大化に重点を置いている。
本稿では,2つの対照的なアプローチの統合を解析することにより,推論の強化と計算効率の相乗効果について検討する。
論文 参考訳(メタデータ) (2024-12-20T08:42:45Z) - Evaluating the effectiveness, reliability and efficiency of a multi-objective sequential optimization approach for building performance design [0.8168080812068832]
本稿では,建築形状,ファブリック,HVACシステム,建築性能制御の多目的設計最適化のための逐次的アプローチを提案し,評価する。
シーケンシャルアプローチの性能は、NSGA-IIアルゴリズムと比較して、完全な因子探索と比較される。
本研究は、シーケンシャル最適化アプローチが、標準NSGA-IIアルゴリズムの高効率かつ堅牢な代替手段であることを示唆している。
論文 参考訳(メタデータ) (2024-12-13T08:00:00Z) - Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。
トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。
このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文 参考訳(メタデータ) (2024-07-18T21:36:00Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [65.91490997921859]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化(UAO)フレームワークを提案する。
このフレームワークは、事前訓練されたモデルの事前情報を保持し、関節の不確実性を用いて過度に適合する問題を緩和する。
我々のアプローチは、Human3.6Mの5.5%という大きなマージンで、これまでの最高の結果を上回っています。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Estimate-Then-Optimize versus Integrated-Estimation-Optimization versus Sample Average Approximation: A Stochastic Dominance Perspective [21.945745750737952]
モデルクラスが十分に特定され、十分なデータが存在する場合に、逆の振る舞いが現れることを示す。
また, 標準サンプル平均近似 (SAA) が, 後悔の点において, モデルクラスが適切に特定された場合に, 最悪の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-13T21:54:53Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。