論文の概要: Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2509.24377v1
- Date: Mon, 29 Sep 2025 07:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.815465
- Title: Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs
- Title(参考訳): 解決前の計画: LLMを用いた数学的推論のための問題認識戦略ルーティング
- Authors: Shihao Qi, Jie Ma, Ziang Yin, Lingling Zhang, Jian Zhang, Jun Liu, Feng Tian, Tongliang Liu,
- Abstract要約: 既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
- 参考スコア(独自算出の注目度): 49.995906301946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods usually leverage a fixed strategy, such as natural language reasoning, code-augmented reasoning, tool-integrated reasoning, or ensemble-based reasoning, to guide Large Language Models (LLMs) to perform mathematical reasoning. Our analysis reveals that the single strategy cannot adapt to problem-specific requirements and thus overlooks the trade-off between effectiveness and efficiency. To address these issues, we propose Planning and Routing through Instance-Specific Modeling (PRISM), a novel framework that decouples mathematical reasoning into two stages: strategy planning and targeted execution. Specifically, we first curate a multi-strategy preference dataset, which we call MathStrat, capturing correctness, process quality, and computational efficiency for each problem--strategy pair. Then, we train a lightweight Strategy Adapter based on the dataset to obtain confidence distributions over the mentioned four reasoning strategies. At inference time, an adaptive routing policy dynamically tailors the reasoning approach based on predictor confidence. It directs the model to use single-strategy execution for high-confidence predictions, dual-strategy verification for competitive scenarios, or comprehensive multi-strategy exploration for uncertain cases. Extensive experiments across five mathematical reasoning benchmarks demonstrate that PRISM consistently outperforms individual strategies and ensemble baselines, achieving improvements ranging from 0.9% to 7.6% across different base models. The adaptive routing approach shows particularly strong benefits for mathematical reasoning tasks across diverse model architectures. Our code is released at https://github.com/reml-group/PRISM.
- Abstract(参考訳): 既存の手法は通常、自然言語推論、コード拡張推論、ツール統合推論、アンサンブルベースの推論といった固定された戦略を利用して、数学的な推論を行うために大規模言語モデル(LLM)を誘導する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
これらの問題に対処するために,数理推論を戦略計画と目的実行の2段階に分離する新しいフレームワークであるPRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
具体的には、まずマルチストラテジー選好データセットをキュレートし、それをMathStratと呼び、各問題に対して正確性、プロセス品質、計算効率を計測する。
そして、データセットに基づいて軽量な戦略適応器を訓練し、上記の4つの理由付け戦略に対して信頼性分布を求める。
推論時に、適応的なルーティングポリシーは、予測器の信頼性に基づいて推論アプローチを動的に調整する。
高信頼度予測や競合シナリオの二重ストラテジー検証、不確実なケースの総合的マルチストラテジー探索に単一ストラテジー実行を使用するようにモデルに指示する。
5つの数学的推論ベンチマークによる大規模な実験により、PRISMは個々の戦略とアンサンブルベースラインを一貫して上回り、異なるベースモデルに対して0.9%から7.6%の改善が達成された。
適応的ルーティングアプローチは、多種多様なモデルアーキテクチャにわたる数学的推論タスクに特に強い利点を示す。
私たちのコードはhttps://github.com/reml-group/PRISM.comでリリースされています。
関連論文リスト
- Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T15:55:04Z) - A Unified Approach to Routing and Cascading for LLMs [5.653106385738822]
様々なエージェントシステムに埋め込まれた大規模言語モデル(LLM)は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を高めている。
既存の戦略には、クエリ毎にひとつのモデルが選択されるルーティング、あるいは、満足のいく回答が見つかるまで順次、より大きなモデルを実行するカスケードがある。
我々は、カスケードのための新しい最適戦略を導き、既存のルーティング戦略の最適性を証明する。
本稿では、ルーティングとカスケードを統合した統合フレームワークであるカスケードルーティングを理論的に最適な戦略として提案する。
論文 参考訳(メタデータ) (2024-10-14T10:00:49Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Scalable and Equitable Math Problem Solving Strategy Prediction in Big
Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。
次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。
提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2023-08-07T19:51:10Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。