論文の概要: A First-Order Logic-Based Alternative to Reward Models in RLHF
- arxiv url: http://arxiv.org/abs/2512.14100v1
- Date: Tue, 16 Dec 2025 05:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.602858
- Title: A First-Order Logic-Based Alternative to Reward Models in RLHF
- Title(参考訳): RLHFにおけるリワードモデルの1次論理的代替
- Authors: Chunjin Jian, Xinhua Zhu,
- Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルと人間の価値観と嗜好の整合において重要な役割を果たす。
既存のアプローチは報酬モデルに大きく依存し、言語モデルから人間に沿った行動へと導く。
本稿では,従来の報酬モデルに代わる論理類似性に基づく報酬機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) plays a crucial role in aligning large language models (LLMs) with human values and preferences. However, the quality and stability of the trained reward model largely determine the final alignment performance. Existing approaches such as Proximal Policy Optimization (PPO) rely heavily on reward models to guide LLMs toward human-aligned behaviors. In this work, we propose a logic-similarity-based reward mechanism as an alternative to conventional reward modeling. Instead of relying on heuristic reward estimation, our method leverages formal logical consistency to steer model alignment with human preferences. Since real-world questions can be interpreted from multiple perspectives, to ensure that logic-based reinforcement learning does not cause model collapse, we introduce S-GRPO, a supervised variant of the GRPO framework. S-GRPO incorporates an additional supervised component and jointly optimizes the generation term, KL-divergence regularization, and label-based objective during training. Experimental results demonstrate that S-GRPO consistently outperforms standard supervised fine-tuning (SFT) in both performance and robustness. Furthermore, it extends existing preference-learning frameworks such as GRPO and DPO, offering a more flexible and task-adaptive approach to alignment training. Our code is available at https://github.com/ChunjinJiang/sgrpo.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデル(LLM)と人間の価値観と嗜好の整合において重要な役割を果たす。
しかし、トレーニングされた報酬モデルの品質と安定性は、最終的なアライメント性能を決定する。
PPO(Proximal Policy Optimization)のような既存のアプローチは、LLMを人間に沿った行動へと導くための報酬モデルに大きく依存している。
本研究では,従来の報酬モデルに代わる論理類似性に基づく報酬機構を提案する。
提案手法は,ヒューリスティックな報酬推定に頼るのではなく,形式的な論理的整合性を利用して人間の嗜好に合わせたモデルアライメントを導出する。
実世界の質問は複数の観点から解釈できるので、論理に基づく強化学習がモデル崩壊を起こさないようにするため、GRPOフレームワークの教師付き変種であるS-GRPOを導入する。
S-GRPOは、追加の教師付きコンポーネントを導入し、トレーニング中に生成項、KL分割正規化、ラベルベースの目的を共同で最適化する。
実験結果から,S-GRPOは標準教師付き微調整(SFT)よりも性能と頑健性に優れていた。
さらに、GRPOやDPOといった既存の好み学習フレームワークを拡張し、アライメントトレーニングをより柔軟でタスク適応的なアプローチを提供する。
私たちのコードはhttps://github.com/ChunjinJiang/sgrpo.comで公開されています。
関連論文リスト
- GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。
本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文 参考訳(メタデータ) (2025-04-07T11:34:48Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。
この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:59:11Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。