Fugu-MT 論文翻訳(概要): AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition

論文の概要: AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition

arxiv url: http://arxiv.org/abs/2402.11452v1
Date: Sun, 18 Feb 2024 04:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 21:26:47.983351
Title: AutoPRM: Automating Procedural Supervision for Multi-Step Reasoning via Controllable Question Decomposition
Title（参考訳）: autoprm: 制御可能な質問分解による多段階推論のための手続き的監督の自動化
Authors: Zhaorun Chen, Zhuokai Zhao, Zhihong Zhu, Ruiqi Zhang, Xiang Li, Bhiksha Raj and Huaxiu Yao
Abstract要約: 我々は,大規模言語モデル(LLM)の微調整を効率的に行う,新しい自己教師型フレームワークを提案する。具体的には、AutoPRMは複雑な問題を制御可能なスイッチでより管理可能なサブクエストに分解する。また、報酬の改ざんを回避するための文脈誘導復号法を提案し、従属問題の解法を導出する。
参考スコア（独自算出の注目度）: 40.73298478953533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in large language models (LLMs) have shown promise in multi-step reasoning tasks, yet their reliance on extensive manual labeling to provide procedural feedback remains a significant impediment. To address this challenge, in this paper, we propose a novel self-supervised framework AutoPRM that efficiently enhances the fine-tuning of LLMs for intricate reasoning challenges. Specifically, AutoPRM first decomposes complex problems into more manageable subquestions with a controllable granularity switch, then sequentially apply reinforcement learning to iteratively improve the subquestion solver. Additionally, we propose context-guided-decoding to avoid reward tampering and guide the subquestion solver towards the solution of the holistic problem. Extensive experiments show that AutoPRM significantly improves performance on mathematical and commonsense reasoning tasks over SOTA. More encouragingly, AutoPRM can be easily integrated with other orthogonal reasoning pipelines.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、多段階推論タスクにおいて有望であるが、手続き的フィードバックを提供するための広範な手動ラベリングに依存していることは、依然として大きな障害である。本稿では,複雑な推論課題に対して,llmの微調整をより効率的に行うための,自己教師付きフレームワークautoprmを提案する。具体的には、autoprmは、まず複雑な問題を制御可能な粒度スイッチでより管理可能なサブクエストに分解し、その後順次強化学習を適用してサブクエストソルバを反復的に改善する。さらに,報酬の改ざんを回避するための文脈誘導復号法を提案し,従属問題の解法を導出する。大規模な実験により、AutoPRMはSOTA上の数学的および常識推論タスクの性能を著しく向上することが示された。さらに奨励的に、AutoPRMは他の直交推論パイプラインと簡単に統合できる。

関連論文リスト

Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は指示の順守に寄与する主要な要因だ本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文参考訳（メタデータ） (2025-08-05T07:42:00Z)
Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting [0.0]
大規模言語モデル(LLM)における多段階数学的推論を強化する新しい手法を提案する。 Multi-Layered Self-Reflection with Auto-Prompting (MAPS)フレームワークは、Chain of Thought (CoT)、Self-Reflection、Auto-Promptingといったテクニックを統合している。実験により、MAPSは標準のCoTよりも大幅に優れ、推論最適化モデルと競合する結果が得られることが示された。
論文参考訳（メタデータ） (2025-06-30T14:18:35Z)
RISE: Reasoning Enhancement via Iterative Self-Exploration in Multi-hop Question Answering [25.84802288928995]
提案するRISE:Reasoning Enhancement via Iterative Self-Explorationは,モデルの推論能力を高めるために設計された新しいフレームワークである。 MHQAタスクに対処する3つの重要なステップ:質問分解、検索-then-read、自己批判である。複数のMHQAベンチマークの実験により、RISEは推論精度とタスク性能を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-05-28T03:48:28Z)
MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。 MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文参考訳（メタデータ） (2025-05-21T00:56:09Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Explainable Procedural Mistake Detection [27.40806437649092]
手続き的誤り検出は、人間が手元のタスクをうまく実行したかどうかを分類する難題である。我々は PMD を質問や回答の解説的な自己ダイアログにリキャストし、決定の証拠として機能する。これらの結果から,オープンソースVLMは,この課題に対処する一方で,精度,コヒーレンス,ダイアログの効率を大幅に向上できることがわかった。
論文参考訳（メタデータ） (2024-12-16T16:13:55Z)
SG-FSM: A Self-Guiding Zero-Shot Prompting Paradigm for Multi-Hop Question Answering Based on Finite State Machine [27.274219226254026]
MHQA (Multi-hop Question Answering) は、多くの既存モデルにおいて依然として困難である。マルチホップ推論能力を高めるために,SG-FSM(Self-Guiding prompting Finite State Machine)を提案する。
論文参考訳（メタデータ） (2024-10-22T13:47:38Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文参考訳（メタデータ） (2024-04-14T07:19:27Z)
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文参考訳（メタデータ） (2023-12-15T18:20:15Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。 PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文参考訳（メタデータ） (2022-05-06T08:31:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。