論文の概要: Parent-Guided Semantic Reward Model (PGSRM): Embedding-Based Reward Functions for Reinforcement Learning of Transformer Language Models
- arxiv url: http://arxiv.org/abs/2512.06920v1
- Date: Sun, 07 Dec 2025 16:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.588032
- Title: Parent-Guided Semantic Reward Model (PGSRM): Embedding-Based Reward Functions for Reinforcement Learning of Transformer Language Models
- Title(参考訳): 親誘導セマンティック・リワードモデル(PGSRM: Embedding-based Reward function for Reinforcement Learning of Transformer Language Models)
- Authors: Alexandr Plashchinsky,
- Abstract要約: PGSRM(Parent-Guided Semantic Reward Model)を紹介する。
PGSRMはバイナリの正当性信号、人間の嗜好データ、訓練された報酬モデルを単純な信号で置き換える。
PGSRMは2次報酬ベースラインよりもスムーズな報酬改善とより安定したPPOダイナミクスを実現している。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Parent-Guided Semantic Reward Model (PGSRM), a lightweight reward framework for reinforcement learning (RL) of transformer language models. PGSRM replaces binary correctness signals, human preference data, and trained reward models with a simple signal: cosine similarity between a parent model's reference output embedding and a child model's generated output for the same input. This yields a dense, semantically meaningful reward with no human annotation or additional model training. We apply PGSRM on five language tasks and find that it produces smoother reward improvement and more stable PPO dynamics than a binary reward baseline, suggesting that embedding-based semantic rewards are a practical alternative to RLHF-style reward modeling for parent-guided alignment in smaller transformer models.
- Abstract(参考訳): 変換言語モデルの強化学習(RL)のための軽量な報奨フレームワークであるPGSRM(Parent-Guided Semantic Reward Model)を紹介する。
PGSRMは、バイナリ正当性信号、人間の嗜好データ、訓練された報酬モデルを単純な信号で置き換える:親モデルの参照出力埋め込みと子モデルの出力出力のコサイン類似性。
これにより、人間のアノテーションや追加のモデルトレーニングなしで、密集した意味的に意味のある報酬が得られる。
PGSRMを5つの言語タスクに適用し,2次報酬ベースラインよりもスムーズな報酬改善とより安定したPPOダイナミクスを実現し,より小さなトランスフォーマーモデルにおける親誘導アライメントのためのRLHFスタイルの報酬モデリングの実践的な代替となることを示唆した。
関連論文リスト
- Shaping Explanations: Semantic Reward Modeling with Encoder-Only Transformers for GRPO [0.0]
グループ相対政策最適化フレームワークにおいて,報酬形成のための新たなアプローチを導入する。
私たちの中心的な貢献は、セマンティック報酬モデルとして、小型で効率的なエンコーダのみのトランスフォーマーを使用することです。
本手法は,イタリア医学部入学試験のモデルを訓練する作業に適用する。
論文 参考訳(メタデータ) (2025-09-16T13:39:29Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。