論文の概要: The Good, The Bad, and The Hybrid: A Reward Structure Showdown in Reasoning Models Training
- arxiv url: http://arxiv.org/abs/2511.13016v1
- Date: Mon, 17 Nov 2025 06:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.711057
- Title: The Good, The Bad, and The Hybrid: A Reward Structure Showdown in Reasoning Models Training
- Title(参考訳): The Good, The Bad, and the Hybrid: A Reward Structure Showdown in Reasoning Models Training
- Authors: Subramanyam Sahoo,
- Abstract要約: 我々は、細調整された大規模言語モデルのためのハード、連続、ハイブリッドの報酬構造について研究する。
離散信号と連続信号の間で遷移する適応型ハイブリッド報酬スケジューラを導入する。
以上の結果から,ハイブリッド報酬構造は,純粋にハードあるいは連続的なアプローチよりも収束速度とトレーニング安定性を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design is central to reinforcement learning from human feedback (RLHF) and alignment research. In this work, we propose a unified framework to study hard, continuous, and hybrid reward structures for fine-tuning large language models (LLMs) on mathematical reasoning tasks. Using Qwen3-4B with LoRA fine-tuning on the GSM8K dataset, we formalize and empirically evaluate reward formulations that incorporate correctness, perplexity, reasoning quality, and consistency. We introduce an adaptive hybrid reward scheduler that transitions between discrete and continuous signals, balancing exploration and stability. Our results show that hybrid reward structures improve convergence speed and training stability over purely hard or continuous approaches, offering insights for alignment via adaptive reward modeling.
- Abstract(参考訳): リワードデザインは、人間のフィードバック(RLHF)とアライメント研究からの強化学習の中心である。
本研究では,数学的推論タスクにおいて,大規模言語モデル(LLM)を微調整するための,ハード,連続,ハイブリッドな報酬構造を学習するための統一的なフレームワークを提案する。
GSM8KデータセットにLoRAを微調整したQwen3-4Bを用いて、正しさ、難易度、推論品質、一貫性を含む報酬の定式化を形式化し、実証的に評価する。
離散信号と連続信号の間で遷移し、探索と安定性のバランスをとる適応型ハイブリッド報酬スケジューラを導入する。
以上の結果から,ハイブリッド報酬構造は,適応報酬モデルによる適応報酬モデルによるアライメントの洞察を提供し,コンバージェンス速度とトレーニング安定性を向上させることが示唆された。
関連論文リスト
- Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。