論文の概要: A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics
- arxiv url: http://arxiv.org/abs/2502.14333v1
- Date: Thu, 20 Feb 2025 07:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:46.922443
- Title: A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics
- Title(参考訳): 数学における大規模言語モデルに対するフィードバックに基づく多段階推論の検討
- Authors: Ting-Ruen Wei, Haowei Liu, Xuyang Wu, Yi Fang,
- Abstract要約: 我々は,LLMの多段階数学推論を強化するために,ステップレベルのフィードバックと結果レベルの戦略を調査する。
LLMのスケーリングにおいて,多段階の推論が重要な要素となるため,さらなる研究の促進と理解を深めるための基盤の確立が望まれる。
- 参考スコア(独自算出の注目度): 9.681821524089761
- License:
- Abstract: Recent progress in large language models (LLM) found chain-of-thought prompting strategies to improve the reasoning ability of LLMs by encouraging problem solving through multiple steps. Therefore, subsequent research aimed to integrate the multi-step reasoning process into the LLM itself through process rewards as feedback and achieved improvements over prompting strategies. Due to the cost of step-level annotation, some turn to outcome rewards as feedback. Aside from these training-based approaches, training-free techniques leverage frozen LLMs or external tools for feedback at each step to enhance the reasoning process. With the abundance of work in mathematics due to its logical nature, we present a survey of strategies utilizing feedback at the step and outcome levels to enhance multi-step math reasoning for LLMs. As multi-step reasoning emerges a crucial component in scaling LLMs, we hope to establish its foundation for easier understanding and empower further research.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、複数のステップによる問題解決を促進することによって、LLMの推論能力を改善するためのチェーン・オブ・シークレット戦略を発見した。
そのため、その後の研究は、プロセス報酬をフィードバックとしてLLM自体に多段階の推論プロセスを統合することを目的としており、戦略の推進よりも改善が達成された。
ステップレベルのアノテーションのコストのため、フィードバックとして結果の報酬に切り替える場合もあります。
これらのトレーニングベースのアプローチとは別に、トレーニングフリーの手法では、各ステップで凍結したLCMや外部ツールを活用して、推論プロセスを強化する。
そこで本研究では,LLMの多段階数学推論を強化するために,段階的および結果レベルでのフィードバックを活用した戦略について検討する。
LLMのスケーリングにおいて,多段階の推論が重要な要素となるため,さらなる研究の促進と理解を深めるための基盤の確立が望まれる。
関連論文リスト
- Can LLMs plan paths with extra hints from solvers? [2.874944508343474]
大規模言語モデル(LLM)は、自然言語処理、数学的問題解決、プログラム合成に関連するタスクにおいて顕著な能力を示している。
本稿では,従来のロボット計画課題の解決において,解法生成フィードバックを統合することでLCM性能を向上させる手法について検討する。
論文 参考訳(メタデータ) (2024-10-07T14:00:08Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。
提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-10-04T18:58:09Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Enhancing Computer Programming Education with LLMs: A Study on Effective Prompt Engineering for Python Code Generation [6.267144136593821]
大規模言語モデル(LLM)とプロンプトエンジニアリングは、パーソナライズされた教育を通じてコンピュータプログラミング教育を前進させる大きな可能性を秘めている。
本稿では, 多様な教育ニーズに合わせた迅速な技術戦略の体系的分類, LLMの本来の能力を超えた複雑な問題を解決する能力の強化, これらの戦略の評価と実装のための堅牢な枠組みの確立, の3つの重要な研究課題について考察する。
GPT-4o, GPT-4o, Llama3-8b, Mixtral-8x7b を用いたLeetCode や USACO などのデータセットによる実験により, GPT-4o は特に "multi-step" で他より一貫して優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-07-07T16:41:07Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。