論文の概要: Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning
- arxiv url: http://arxiv.org/abs/2310.10080v1
- Date: Mon, 16 Oct 2023 05:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:18:35.905025
- Title: Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning
- Title(参考訳): ステップバイステップの報酬: 推論のナビゲータとしてのステップレベル報酬モデル
- Authors: Qianli Ma, Haotian Zhou, Tingkai Liu, Jianbo Yuan, Pengfei Liu, Yang
You and Hongxia Yang
- Abstract要約: Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
- 参考スコア(独自算出の注目度): 64.27898739929734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent years have seen considerable advancements in multi-step reasoning with
Large Language Models (LLMs). The previous studies have elucidated the merits
of integrating feedback or search mechanisms during model inference to improve
the reasoning accuracy. The Process-Supervised Reward Model (PRM), typically
furnishes LLMs with step-by-step feedback during the training phase, akin to
Proximal Policy Optimization (PPO) or reject sampling. Our objective is to
examine the efficacy of PRM in the inference phase to help discern the optimal
solution paths for multi-step tasks such as mathematical reasoning and code
generation. To this end, we propose a heuristic greedy search algorithm that
employs the step-level feedback from PRM to optimize the reasoning pathways
explored by LLMs. This tailored PRM demonstrated enhanced results compared to
the Chain of Thought (CoT) on mathematical benchmarks like GSM8K and MATH.
Additionally, to explore the versatility of our approach, we develop a novel
method to automatically generate step-level reward dataset for coding tasks and
observed similar improved performance in the code generation tasks. Thus
highlighting the robust nature of our reward-model-based approach to inference
for reasoning tasks.
- Abstract(参考訳): 近年,Large Language Models (LLMs) を用いた多段階推論が著しく進歩している。
前報では,モデル推論におけるフィードバックや探索機構の統合による推論精度の向上のメリットを明らかにした。
Process-Supervised Reward Model (PRM) は、通常、トレーニングフェーズの間、PPO(Proximal Policy Optimization)に似たステップバイステップのフィードバックをLCMに提供する。
本研究の目的は,数理推論やコード生成といったマルチステップタスクの最適解経路を識別するために,推論フェーズにおけるprmの有効性を検討することである。
そこで本研究では,PLMからのステップレベルのフィードバックを用いて,LLMが探索する推論経路を最適化するヒューリスティックなグリージー探索アルゴリズムを提案する。
この調整されたPRMは、GSM8KやMATHのような数式ベンチマークにおいて、Chain of Thought (CoT)と比較して改善された結果を示した。
さらに,本手法の汎用性を探るため,コーディングタスクのためのステップレベルの報酬データセットを自動的に生成する手法を開発し,コード生成タスクにおける同様のパフォーマンス向上を観察する。
したがって、推論タスクに対する報酬モデルに基づくアプローチの堅牢性を強調します。
関連論文リスト
- Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。