論文の概要: Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following
- arxiv url: http://arxiv.org/abs/2512.23457v1
- Date: Mon, 29 Dec 2025 13:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.514161
- Title: Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following
- Title(参考訳): 成功としてのリプレイ失敗: 指示追従のためのサンプル効率の良い強化学習
- Authors: Kongcheng Zhang, Qi Yao, Shunyu Liu, Wenjian Zhang, Min Cen, Yang Zhou, Wenkai Fang, Yiru Zhao, Baisheng Lai, Mingli Song,
- Abstract要約: 強化学習(RL)は、様々な制約で命令に従うために、LLM(Large Language Models)を調整することを約束している。
タスク追従のための新しいサンプル効率のRLフレームワークであるHindsight instruction Replay (HiR)を提案する。
- 参考スコア(独自算出の注目度): 42.05102776289243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has shown promise for aligning Large Language Models (LLMs) to follow instructions with various constraints. Despite the encouraging results, RL improvement inevitably relies on sampling successful, high-quality responses; however, the initial model often struggles to generate responses that satisfy all constraints due to its limited capabilities, yielding sparse or indistinguishable rewards that impede learning. In this work, we propose Hindsight instruction Replay (HiR), a novel sample-efficient RL framework for complex instruction following tasks, which employs a select-then-rewrite strategy to replay failed attempts as successes based on the constraints that have been satisfied in hindsight. We perform RL on these replayed samples as well as the original ones, theoretically framing the objective as dual-preference learning at both the instruction- and response-level to enable efficient optimization using only a binary reward signal. Extensive experiments demonstrate that the proposed HiR yields promising results across different instruction following tasks, while requiring less computational budget. Our code and dataset is available at https://github.com/sastpg/HIR.
- Abstract(参考訳): 強化学習(RL)は、様々な制約で命令に従うために、LLM(Large Language Models)を調整することを約束している。
奨励的な結果にもかかわらず、RLの改善は必然的に、成功し、高品質な応答をサンプリングすることに頼っているが、初期モデルは、その限られた能力のために全ての制約を満たす応答を生成するのに苦労し、学習を妨げるスパースや不明瞭な報酬をもたらす。
本研究は,複雑なタスクを追従する新しいサンプル効率のRLフレームワークであるHindsight instruction Replay (HiR)を提案する。
我々は、これらのリプレイされたサンプルと元のサンプルに対してRLを実行し、理論的には命令レベルと応答レベルの両方で二重参照学習として目的をフレーミングし、バイナリ報酬信号のみを用いて効率的な最適化を実現する。
大規模な実験により、提案されたHiRは計算予算を減らしながら、異なる命令に従って有望な結果が得られることを示した。
私たちのコードとデータセットはhttps://github.com/sastpg/HIR.orgで公開されています。
関連論文リスト
- ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - A Reminder of its Brittleness: Language Reward Shaping May Hinder
Learning for Instruction Following Agents [38.928166383780535]
我々は,LSSの明らかな成功は不安定であり,事前の陽性所見はRLの基線が弱いことに起因すると論じる。
我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。
論文 参考訳(メタデータ) (2023-05-26T04:28:03Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。