論文の概要: MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop
- arxiv url: http://arxiv.org/abs/2601.22900v1
- Date: Fri, 30 Jan 2026 12:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.434331
- Title: MulFeRL: Enhancing Reinforcement Learning with Verbal Feedback in a Multi-turn Loop
- Title(参考訳): MulFeRL:マルチターンループにおける言語フィードバックによる強化学習の強化
- Authors: Xuancheng Li, Haitao Li, Yujia Zhou, YiqunLiu, Qingyao Ai,
- Abstract要約: 本研究では,よりリッチな言語フィードバックを活用して,失敗したサンプルに対するRLVRトレーニングを指導する方法を検討する。
具体的には,マルチターンフィードバック誘導型強化学習フレームワークを提案する。
1) フィードバックによって誘導される動的マルチターン再生は、失敗したサンプルにのみトリガーされ、(2) ターン内最適化とクロスターン最適化のための2つの補完的な学習信号、(3) モデルの推論プロセスへの構造化されたフィードバック注入である。
- 参考スコア(独自算出の注目度): 28.558050861419957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is widely used to improve reasoning in multiple domains, yet outcome-only scalar rewards are often sparse and uninformative, especially on failed samples, where they merely indicate failure and provide no insight into why the reasoning fails. In this paper, we investigate how to leverage richer verbal feedback to guide RLVR training on failed samples, and how to convert such feedback into a trainable learning signal. Specifically, we propose a multi-turn feedback-guided reinforcement learning framework. It builds on three mechanisms: (1) dynamic multi-turn regeneration guided by feedback, triggered only on failed samples, (2) two complementary learning signals for within-turn and cross-turn optimization, and (3) structured feedback injection into the model's reasoning process. Trained on sampled OpenR1-Math, the approach outperforms supervised fine-tuning and RLVR baselines in-domain and generalizes well out-of-domain.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、複数のドメインにおける推論を改善するために広く使用されているが、結果のみのスカラー報酬は、特に失敗したサンプルにおいて、スパースで非形式的であることが多い。
本稿では,よりリッチな言語フィードバックを利用して,失敗したサンプルに対するRLVRトレーニングをガイドする方法と,そのようなフィードバックをトレーニング可能な学習信号に変換する方法について検討する。
具体的には,マルチターンフィードバック誘導型強化学習フレームワークを提案する。
1) フィードバックによって誘導される動的マルチターン再生は、失敗したサンプルにのみトリガーされ、(2) ターン内最適化とクロスターン最適化のための2つの補完的な学習信号、(3) モデルの推論プロセスへの構造化されたフィードバック注入である。
OpenR1-Mathのサンプルに基づいてトレーニングされたこの手法は、教師付き微調整およびRLVRベースラインのドメイン内における性能を向上し、ドメイン外でうまく一般化する。
関連論文リスト
- Reinforcement Learning via Self-Distillation [37.078107691613155]
大規模言語モデルは、コードや数学などの検証可能な領域で強化学習を施して、ポストトレーニングされている。
検証可能な報酬(RLVR)を用いた強化学習の現在の手法は、試みごとにスカラーな結果報酬からのみ学習し、深刻な信用割り当てボトルネックを生み出す。
我々は、この設定をリッチフィードバックによる強化学習として定式化し、自己蒸留政策最適化(SDPO)を導入する。
SDPOは、トークン化されたフィードバックを、外部教師や明示的な報酬モデルなしで、密集した学習信号に変換する。
論文 参考訳(メタデータ) (2026-01-28T17:45:12Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning [58.80217284841095]
マルチターン問題解決は、大規模な推論モデル(LRM)が彼らの推論を反映し、フィードバックから修正する上で非常に難しい。
既存の強化学習(RL)手法は、検証可能な報酬で1ターンのパラダイム上で大きな推論モデルを訓練する。
我々は,反復的問題解決において,最小限の単一ユーザフィードバックを利用する強化学習のためのUnary Feedback as Observation (UFO)を紹介した。
論文 参考訳(メタデータ) (2025-07-18T18:07:38Z) - Learning Robust Recommender from Noisy Implicit Feedback [140.7090392887355]
我々はAdaptive Denoising Training(ADT)という新しいトレーニング戦略を提案する。
ADTは2つのパラダイム(Trncated LossとReweighted Loss)によるノイズ相互作用を適応的に引き起こす
我々は、追加のフィードバック(例えば、評価)を補助信号とみなし、追加のフィードバックをADTに組み込むための3つの戦略を提案する。
論文 参考訳(メタデータ) (2021-12-02T12:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。