論文の概要: Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.19918v4
- Date: Fri, 08 Aug 2025 18:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 16:55:52.06107
- Title: Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models
- Title(参考訳): メタ推論:大規模言語モデルにおける推論時間推論最適化のための動的ガイダンス
- Authors: Yuan Sui, Yufei He, Tri Cao, Simeng Han, Yulin Chen, Bryan Hooi,
- Abstract要約: 大規模言語モデル(LLM)は、推論時間の間に高い計算時間とエラーの伝播に苦労する。
提案するMeta-Reasonerは,LLMが推論時間における推論方法の戦略を調整することで,推論計算を最適化するための新しいフレームワークである。
提案手法は,従来のSOTA法よりも9~12%向上し,推論時間を28~35%短縮する。
- 参考スコア(独自算出の注目度): 35.82665698868508
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) struggle with high computational time and error propagation during inference time, especially for complex tasks like math, puzzles, or coding requiring multi-step thinking. While existing reasoning models with chain-of-thoughts (CoT) can enable LLMs to do step-wise analysis and reflection, they often face the issue of wasting computation on less productive solutions and fail to make progress during inference time. In this paper, we propose Meta-Reasoner, a new framework to enable LLMs ``Think about how to think'', i.e., optimize the inference compute by adjusting strategies on how to reason during inference time. Inspired by dual-process theory, our method decouples the high-level strategy generation (e.g., backtracking, switching approaches, or restarting) from stepwise CoT generation via a lightweight progress report. The strategy module only consider the summarized version from the previous CoTs to propose new strategies accordingly. We employ the contextual multi-armed bandits (CMABs) for this module to iteratively evaluate the previous reasoning states and dynamically adjust the strategy to avoid reasoning get stuck in less productive paths during inference. Evaluations on math problems (e.g., Game-of-24, TheoremQA) and scientific problems (e.g., SciBench) demonstrate that our method improves performance by 9-12\% over previous SOTA methods while reducing inference time by 28-35\%. This approach also generalizes to other domains like creative writing, demonstrating its versatility for diverse reasoning-intensive problems using LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に数学、パズル、多段階思考を必要とするコーディングといった複雑なタスクにおいて、推論時間の間に高い計算時間とエラーの伝播に苦しむ。
チェーン・オブ・思想(CoT)を持つ既存の推論モデルでは、LCMがステップワイズ分析とリフレクションを行うことができるが、生産性の低いソリューションで計算を無駄にし、推論時間中に進行しないという問題に直面していることが多い。
本稿では,LLMs ``Think about Think'',すなわち推論時間における推論方法の戦略を調整することで,推論計算を最適化する新しいフレームワークであるMeta-Reasonerを提案する。
両プロセス理論に着想を得た本手法は, ステップワイドCOT生成から, 軽量進捗レポートを通じて高レベル戦略生成(バックトラック, 切替アプローチ, 再起動など)を分離する。
戦略モジュールは、新しい戦略を提案するために、以前のCoTから要約されたバージョンのみを考慮する。
我々は,このモジュールにCMABを用いて,事前の推論状態を反復的に評価し,推論中により生産性の低い経路で推論が行き詰まるのを避けるために戦略を動的に調整する。
算数問題(例:Game-of-24,TheoremQA)と科学問題(例:SciBench)の評価は,従来のSOTA法よりも9~12\%向上し,推論時間を28~35\%削減したことを示す。
このアプローチはクリエイティブな記述のような他の領域にも一般化され、LSMを用いた多種多様な推論集約的な問題に対してその汎用性を示す。
関連論文リスト
- Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law [29.763080554625216]
本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。
LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
論文 参考訳(メタデータ) (2025-05-05T14:14:59Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。
我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。
我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文 参考訳(メタデータ) (2025-04-02T23:51:27Z) - "Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding [4.008780119020479]
大規模言語モデル(LLM)は強力な推論能力を示しており、多くの場合、ほとんどショットやゼロショットの連鎖(CoT)のプロンプトによるものである。
本稿では,LLMを体系的に推論を継続し,未熟な推論を防止できる新しい復号法を提案する。
論文 参考訳(メタデータ) (2025-03-13T08:46:32Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
本稿では,リアルタイムの誤り訂正を可能にする動的自己補正戦略と,コンセンサス誘導による意思決定戦略を導入する。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。