論文の概要: PATS: Process-Level Adaptive Thinking Mode Switching
- arxiv url: http://arxiv.org/abs/2505.19250v1
- Date: Sun, 25 May 2025 17:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.005072
- Title: PATS: Process-Level Adaptive Thinking Mode Switching
- Title(参考訳): PATS:プロセスレベル適応思考モードスイッチング
- Authors: Yi Wang, Junxiao Liu, Shimao Zhang, Jiajun Chen, Shujian Huang,
- Abstract要約: 現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
- 参考スコア(独自算出の注目度): 53.53401063490537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current large-language models (LLMs) typically adopt a fixed reasoning strategy, either simple or complex, for all questions, regardless of their difficulty. This neglect of variation in task and reasoning process complexity leads to an imbalance between performance and efficiency. Existing methods attempt to implement training-free fast-slow thinking system switching to handle problems of varying difficulty, but are limited by coarse-grained solution-level strategy adjustments. To address this issue, we propose a novel reasoning paradigm: Process-Level Adaptive Thinking Mode Switching (PATS), which enables LLMs to dynamically adjust their reasoning strategy based on the difficulty of each step, optimizing the balance between accuracy and computational efficiency. Our approach integrates Process Reward Models (PRMs) with Beam Search, incorporating progressive mode switching and bad-step penalty mechanisms. Experiments on diverse mathematical benchmarks demonstrate that our methodology achieves high accuracy while maintaining moderate token usage. This study emphasizes the significance of process-level, difficulty-aware reasoning strategy adaptation, offering valuable insights into efficient inference for LLMs.
- Abstract(参考訳): 現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)は,各ステップの難易度に基づいて推論戦略を動的に調整し,精度と計算効率のバランスを最適化する。
本稿では,プロセス・リワード・モデル(PRM)とビーム・サーチを統合し,進行モードの切り替えと悪ステップのペナルティ機構を取り入れた。
種々の数式ベンチマーク実験により,中程度のトークン使用率を維持しながら高精度な手法が得られた。
本研究は,LSMの効率的な推論において,プロセスレベル,難易度を考慮した推論戦略の適応の重要性を強調した。
関連論文リスト
- Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - DISC: Dynamic Decomposition Improves LLM Inference Scaling [54.87338295793453]
本稿では,解解と推理トレースを自動的に推論中のステップに分割する動的分解法を紹介する。
コーディングと数学のベンチマークの実験は、動的分解が静的メソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2025-02-23T20:37:32Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Adaptive-Solver Framework for Dynamic Strategy Selection in Large Language Model Reasoning [31.643337118330944]
大きな言語モデル(LLM)は、推論タスクを扱う素晴らしい能力を示している。
LLMベースのほとんどの手法はワンサイズ・オールアプローチを採用している。
これらの手法の柔軟性は不要な計算オーバーヘッドや準最適性能をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-10-01T12:28:36Z) - Reinforcement Learning Methods for Wordle: A POMDP/Adaptive Control
Approach [0.3093890460224435]
我々は、新しい強化学習手法を用いて、人気のあるWordleパズルの解法に対処する。
Wordleパズルでは、比較的控えめな計算コストで最適に近いオンラインソリューション戦略が得られる。
論文 参考訳(メタデータ) (2022-11-15T03:46:41Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。