論文の概要: Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance
- arxiv url: http://arxiv.org/abs/2602.22583v1
- Date: Thu, 26 Feb 2026 03:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.51151
- Title: Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance
- Title(参考訳): 数学的推論における戦略実行可能性:効果的な誘導のための人間モデル差の活用
- Authors: Weida Liang, Yiyou Sun, Shuyuan Nan, Chuang Li, Dawn Song, Kenji Kawaguchi,
- Abstract要約: 戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。
SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。
SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
- 参考スコア(独自算出の注目度): 86.46794021499511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Example-based guidance is widely used to improve mathematical reasoning at inference time, yet its effectiveness is highly unstable across problems and models-even when the guidance is correct and problem-relevant. We show that this instability arises from a previously underexplored gap between strategy usage-whether a reasoning strategy appears in successful solutions-and strategy executability-whether the strategy remains effective when instantiated as guidance for a target model. Through a controlled analysis of paired human-written and model-generated solutions, we identify a systematic dissociation between usage and executability: human- and model-derived strategies differ in structured, domain-dependent ways, leading to complementary strengths and consistent source-dependent reversals under guidance. Building on this diagnosis, we propose Selective Strategy Retrieval (SSR), a test-time framework that explicitly models executability by selectively retrieving and combining strategies using empirical, multi-route, source-aware signals. Across multiple mathematical reasoning benchmarks, SSR yields reliable and consistent improvements over direct solving, in-context learning, and single-source guidance, improving accuracy by up to $+13$ points on AIME25 and $+5$ points on Apex for compact reasoning models. Code and benchmark are publicly available at: https://github.com/lwd17/strategy-execute-pipeline.
- Abstract(参考訳): 例ベースのガイダンスは、推論時に数学的推論を改善するために広く用いられているが、その効果は、ガイダンスが正確かつ問題関連である場合でも、問題やモデル間で非常に不安定である。
この不安定性は、ソリューションの成功に推論戦略が現れるかどうか、ターゲットモデルのガイダンスとしてインスタンス化されても、その戦略が有効であるかどうかという、これまで未定の戦略利用のギャップから生じることを示す。
人間とモデルに基づく戦略は、構造化された、ドメインに依存した方法で異なり、補完的な強みと、ガイダンスの下で一貫したソース依存の逆転をもたらす。
この診断に基づいてSSR(Selective Strategy Retrieval)を提案する。これは、経験的、複数ルートのソース認識信号を用いて戦略を選択的に検索し、組み合わせることで、実行可能性を明確にモデル化するテストタイムフレームワークである。
複数の数学的推論ベンチマークにおいて、SSRは直接解法、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらし、AIME25の最大$13$ポイント、コンパクト推論モデルのApexの$5$ポイントまで精度を向上する。
コードとベンチマークは、https://github.com/lwd17/strategy-execute-pipeline.comで公開されている。
関連論文リスト
- Experience-Guided Adaptation of Inference-Time Reasoning Strategies [49.954515048847874]
Experience-Guided Reasoner (EGuR) は蓄積された経験に基づいて推論時に調整された戦略を生成する。
EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減する。
論文 参考訳(メタデータ) (2025-11-14T17:45:28Z) - SMaRT: Select, Mix, and ReinvenT - A Strategy Fusion Framework for LLM-Driven Reasoning and Planning [14.78684546475325]
大規模言語モデル(LLM)は、例外的な一般化機能を備えた複雑なタスク自動化を再定義した。
パフォーマンスを最大化し、堅牢性を保証するために戦略を融合するフレームワークの必要性を強調している。
我々は、この制約を克服するために設計された革新的な戦略融合アプローチであるSelect, Mix, ReinvenT (SMaRT) フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-20T20:42:24Z) - Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - Mitigating Strategy-Selection Bias in Reasoning for More Effective Test-Time Scaling [27.616118519120366]
テストタイムスケーリング(TTS)は,多種多様な推論経路をサンプリング・集約することにより,大規模言語モデル(LLM)の性能を向上させることが示されている。
本稿では,テスト時間スケーリングの有効性を損なう場合の理論的解析について述べる。
この理論的な洞察に触発され、推論戦略の選択バイアスを軽減するために設計されたフレームワークであるTS-Uniformを導入する。
論文 参考訳(メタデータ) (2025-09-22T15:30:56Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。
本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。
このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文 参考訳(メタデータ) (2025-05-15T11:31:02Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。