論文の概要: AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via
Controllable Question Decomposition
- arxiv url: http://arxiv.org/abs/2402.11452v1
- Date: Sun, 18 Feb 2024 04:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:26:47.983351
- Title: AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via
Controllable Question Decomposition
- Title(参考訳): autoprm: 制御可能な質問分解による多段階推論のための手続き的監督の自動化
- Authors: Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li,
Bhiksha Raj and Huaxiu Yao
- Abstract要約: 我々は,大規模言語モデル(LLM)の微調整を効率的に行う,新しい自己教師型フレームワークを提案する。
具体的には、AutoPRMは複雑な問題を制御可能なスイッチでより管理可能なサブクエストに分解する。
また、報酬の改ざんを回避するための文脈誘導復号法を提案し、従属問題の解法を導出する。
- 参考スコア(独自算出の注目度): 40.73298478953533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have shown promise in
multi-step reasoning tasks, yet their reliance on extensive manual labeling to
provide procedural feedback remains a significant impediment. To address this
challenge, in this paper, we propose a novel self-supervised framework AutoPRM
that efficiently enhances the fine-tuning of LLMs for intricate reasoning
challenges. Specifically, AutoPRM first decomposes complex problems into more
manageable subquestions with a controllable granularity switch, then
sequentially apply reinforcement learning to iteratively improve the
subquestion solver. Additionally, we propose context-guided-decoding to avoid
reward tampering and guide the subquestion solver towards the solution of the
holistic problem. Extensive experiments show that AutoPRM significantly
improves performance on mathematical and commonsense reasoning tasks over SOTA.
More encouragingly, AutoPRM can be easily integrated with other orthogonal
reasoning pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多段階推論タスクにおいて有望であるが、手続き的フィードバックを提供するための広範な手動ラベリングに依存していることは、依然として大きな障害である。
本稿では,複雑な推論課題に対して,llmの微調整をより効率的に行うための,自己教師付きフレームワークautoprmを提案する。
具体的には、autoprmは、まず複雑な問題を制御可能な粒度スイッチでより管理可能なサブクエストに分解し、その後順次強化学習を適用してサブクエストソルバを反復的に改善する。
さらに,報酬の改ざんを回避するための文脈誘導復号法を提案し,従属問題の解法を導出する。
大規模な実験により、AutoPRMはSOTA上の数学的および常識推論タスクの性能を著しく向上することが示された。
さらに奨励的に、AutoPRMは他の直交推論パイプラインと簡単に統合できる。
関連論文リスト
- SG-FSM: A Self-Guiding Zero-Shot Prompting Paradigm for Multi-Hop Question Answering Based on Finite State Machine [27.274219226254026]
MHQA (Multi-hop Question Answering) は、多くの既存モデルにおいて依然として困難である。
マルチホップ推論能力を高めるために,SG-FSM(Self-Guiding prompting Finite State Machine)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:47:38Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。
我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。
様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。