論文の概要: AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via
Controllable Question Decomposition
- arxiv url: http://arxiv.org/abs/2402.11452v1
- Date: Sun, 18 Feb 2024 04:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:26:47.983351
- Title: AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via
Controllable Question Decomposition
- Title(参考訳): autoprm: 制御可能な質問分解による多段階推論のための手続き的監督の自動化
- Authors: Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li,
Bhiksha Raj and Huaxiu Yao
- Abstract要約: 我々は,大規模言語モデル(LLM)の微調整を効率的に行う,新しい自己教師型フレームワークを提案する。
具体的には、AutoPRMは複雑な問題を制御可能なスイッチでより管理可能なサブクエストに分解する。
また、報酬の改ざんを回避するための文脈誘導復号法を提案し、従属問題の解法を導出する。
- 参考スコア(独自算出の注目度): 40.73298478953533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have shown promise in
multi-step reasoning tasks, yet their reliance on extensive manual labeling to
provide procedural feedback remains a significant impediment. To address this
challenge, in this paper, we propose a novel self-supervised framework AutoPRM
that efficiently enhances the fine-tuning of LLMs for intricate reasoning
challenges. Specifically, AutoPRM first decomposes complex problems into more
manageable subquestions with a controllable granularity switch, then
sequentially apply reinforcement learning to iteratively improve the
subquestion solver. Additionally, we propose context-guided-decoding to avoid
reward tampering and guide the subquestion solver towards the solution of the
holistic problem. Extensive experiments show that AutoPRM significantly
improves performance on mathematical and commonsense reasoning tasks over SOTA.
More encouragingly, AutoPRM can be easily integrated with other orthogonal
reasoning pipelines.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多段階推論タスクにおいて有望であるが、手続き的フィードバックを提供するための広範な手動ラベリングに依存していることは、依然として大きな障害である。
本稿では,複雑な推論課題に対して,llmの微調整をより効率的に行うための,自己教師付きフレームワークautoprmを提案する。
具体的には、autoprmは、まず複雑な問題を制御可能な粒度スイッチでより管理可能なサブクエストに分解し、その後順次強化学習を適用してサブクエストソルバを反復的に改善する。
さらに,報酬の改ざんを回避するための文脈誘導復号法を提案し,従属問題の解法を導出する。
大規模な実験により、AutoPRMはSOTA上の数学的および常識推論タスクの性能を著しく向上することが示された。
さらに奨励的に、AutoPRMは他の直交推論パイプラインと簡単に統合できる。
関連論文リスト
- AlphaMath Almost Zero: process Supervision without process [6.318873143509028]
モンテカルロ木探索(MCTS)フレームワークを活用することにより,手作業によるアノテーションの必要性を解消する,革新的なアプローチを導入する。
実験の結果,MCTSで拡張されたLLMによる自動生成解を用いることで,複雑な数学的推論タスクの処理能力が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-06T15:20:30Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Self-prompted Chain-of-Thought on Large Language Models for Open-domain
Multi-hop Reasoning [70.74928578278957]
オープンドメイン質問回答(ODQA)では、ほとんどの既存の質問はコモンセンスのシングルホップ推論を必要とする。
大規模言語モデル(LLM)は、外部コーパスなしでODQAを促進するために重要な有用性を見出した。
高品質なCoTを大量生産する自動化フレームワークSP-CoTを提案する。
論文 参考訳(メタデータ) (2023-10-20T14:51:10Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - PREFER: Prompt Ensemble Learning via Feedback-Reflect-Refine [24.888093229577965]
提案する制約に対処するため,Prefer という,シンプルで普遍的で自動的な手法を提案する。
我々のPreferは、複数のタスクにおける最先端のパフォーマンスを、大きなマージンで達成する。
論文 参考訳(メタデータ) (2023-08-23T09:46:37Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。