論文の概要: Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting
- arxiv url: http://arxiv.org/abs/2506.23888v1
- Date: Mon, 30 Jun 2025 14:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.098318
- Title: Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting
- Title(参考訳): オートプロンプティングによる多層自己回帰による大規模言語モデルにおけるマルチステップ数学的推論の促進
- Authors: André de Souza Loureiro, Jorge Valverde-Rebaza, Julieta Noguez, David Escarcega, Ricardo Marcacini,
- Abstract要約: 大規模言語モデル(LLM)における多段階数学的推論を強化する新しい手法を提案する。
Multi-Layered Self-Reflection with Auto-Prompting (MAPS)フレームワークは、Chain of Thought (CoT)、Self-Reflection、Auto-Promptingといったテクニックを統合している。
実験により、MAPSは標準のCoTよりも大幅に優れ、推論最適化モデルと競合する結果が得られることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly improved their problem-solving capabilities. However, these models still struggle when faced with complex multi-step reasoning tasks. In this paper, we propose the Multi-Layered Self-Reflection with Auto-Prompting (MAPS) framework, a novel approach designed to enhance multi-step mathematical reasoning in LLMs by integrating techniques such as Chain of Thought (CoT), Self-Reflection, and Auto-Prompting. Unlike traditional static prompting methods, MAPS employs an iterative refinement process. Initially, the model generates a solution using CoT prompting. When errors are detected, an adaptive self-reflection mechanism identifies and analyzes them, generating tailored prompts to guide corrections. These dynamically adjusted prompts enable the model to iteratively refine its reasoning. Experiments on four well-established benchmarks across multiple LLMs show that MAPS significantly outperforms standard CoT and achieves competitive results with reasoning-optimized models. In addition, MAPS enables general-purpose LLMs to reach performance levels comparable to specialized reasoning models. While deeper reflection layers improve accuracy, they also increase token usage and costs. To balance this trade-off, MAPS strategically limits reflection depth, ensuring an optimal balance between cost and reasoning performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、問題解決能力を大幅に改善した。
しかし、これらのモデルは複雑な多段階推論タスクに直面した場合でも依然として苦戦している。
本稿では,思考の連鎖(CoT),自己回帰(Self-Reflection),自動プロンプト(Auto-Prompting)といった技術を統合することで,LLMにおける多段階数学的推論を強化するための新しい手法であるMAPSフレームワークを提案する。
従来の静的プロンプト法とは異なり、MAPSは反復的な洗練プロセスを採用している。
当初、モデルはCoTプロンプトを使って解を生成する。
エラーが検出されると、適応的な自己反映機構がそれらを識別して解析し、修正を導くための調整されたプロンプトを生成する。
これらの動的に調整されたプロンプトにより、モデルはその推論を反復的に洗練することができる。
複数の LLM で確立された4つのベンチマーク実験により、MAPS は標準 CoT を著しく上回り、推論最適化モデルによる競合結果が得られることが示された。
さらに、MAPSは汎用LLMを特別な推論モデルに匹敵する性能レベルまで到達できるようにする。
深いリフレクションレイヤが精度を向上させる一方で、トークンの使用量やコストも向上する。
このトレードオフのバランスをとるために、MAPSは戦略的に反射深度を制限し、コストと推論性能の最適なバランスを確保する。
関連論文リスト
- SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [25.02860760920562]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。