論文の概要: Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order
- arxiv url: http://arxiv.org/abs/2512.04277v1
- Date: Wed, 03 Dec 2025 21:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.891548
- Title: Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order
- Title(参考訳): RL後トレーニングのためのブートストラップ混合リワード:正準作用順序を注入する
- Authors: Prakhar Gupta, Vaibhav Gupta,
- Abstract要約: 粗い順序付け信号は、教師付きデータやアーキテクチャを変更することなく、ソルバ順序軌道に対して強化学習を行うことができることを示す。
その結果, 粗い順序付け信号は, 教師付きデータやアーキテクチャを変更することなく, RL をソルバ順序軌道に操ることが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 8.407888369569324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training with reinforcement learning (RL) typically optimizes a single scalar objective and ignores structure in how solutions are produced. We ask whether a scalar hint toward a canonical solver ordering, used only during RL post-training, improves performance even when fine-tuned on randomized solution sequences. On Sudoku, we train a Transformer with standard fine-tuning on randomized solving orders, then post-train it with Group Relative Policy Optimization (GRPO) with two rewards: cell accuracy and an ordering reward that increases when the model's emission order aligns with the solver order. To compare signals cleanly, we combine them via fixed mixtures and use a simple bootstrapped scaling to equalize component magnitudes at initialization. Mixed rewards generally outperform cell-only optimization--the best mixture yields substantially higher test accuracy than the fine-tuned-only model trained on random-order and approaches the fine-tuned-only model trained on solver-order sequences in accuracy. These results suggest that coarse ordering signals can steer RL post-training toward solver-order trajectories without modifying supervised data or architecture.
- Abstract(参考訳): 強化学習(RL)によるポストトレーニングは通常、単一のスカラー目的を最適化し、ソリューションの生成方法の構造を無視する。
RLポストトレーニングでのみ使用される正準解法順序に対するスカラーヒントが、ランダム化された解列を微調整しても性能を向上させるかどうかを問う。
スドクでは、ランダム化された解決順序の標準的な微調整を施したトランスフォーマーを訓練し、それをグループ相対ポリシー最適化(GRPO)で訓練し、2つの報奨を与える。
信号をきれいに比較するため、固定混合により組み合わせ、単純なブートストラップスケーリングを用いて初期化時の成分の大きさを等化する。
混合報酬は一般にセルのみの最適化よりも優れており、最良の混合はランダム順序で訓練された微調整のみのモデルよりもかなり高い精度で、精度でソルバ順序で訓練された微調整のみのモデルにアプローチする。
これらの結果から, 粗い順序信号は, 教師付きデータやアーキテクチャを変更することなく, RL後処理をソルバ順序軌道に操ることが可能であることが示唆された。
関連論文リスト
- Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models [0.36326779753373206]
Zeroth-Order (ZO) 最適化では、勾配の代わりに関数評価を使用し、メモリ使用量を削減しているが、高次元モデルでは緩やかな収束に悩まされている。
ZOPrOは、大規模言語モデルにおける優先度最適化のために設計された新しいZOアルゴリズムである。
本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
論文 参考訳(メタデータ) (2025-03-05T12:49:48Z) - On Using Quasirandom Sequences in Machine Learning for Model Weight Initialization [0.0]
本研究では,低分解能準ランダム数生成器(QRNG)のPRNGを初期化器のランダム性源として置換することで,モデル性能が向上するかどうかを検討する。
以上の結果から,QRNGベースのニューラルネットワーク初期化器は,PRNGベースの初期化器よりも高い精度に達するか,より高速に同じ精度が得られることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T17:33:09Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。