論文の概要: Shaping Explanations: Semantic Reward Modeling with Encoder-Only Transformers for GRPO
- arxiv url: http://arxiv.org/abs/2509.13081v1
- Date: Tue, 16 Sep 2025 13:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.109098
- Title: Shaping Explanations: Semantic Reward Modeling with Encoder-Only Transformers for GRPO
- Title(参考訳): 形状説明: GRPO用エンコーダオンリー変圧器を用いた意味的リワードモデリング
- Authors: Francesco Pappone, Ruggero Marino Lazzaroni, Federico Califano, Niccolò Gentile, Roberto Marras,
- Abstract要約: グループ相対政策最適化フレームワークにおいて,報酬形成のための新たなアプローチを導入する。
私たちの中心的な貢献は、セマンティック報酬モデルとして、小型で効率的なエンコーダのみのトランスフォーマーを使用することです。
本手法は,イタリア医学部入学試験のモデルを訓練する作業に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel at generating human-like text, aligning their outputs with complex, qualitative goals like pedagogical soundness remains a significant challenge. Standard reinforcement learning techniques often rely on slow and expensive LLM-as-a-judge evaluations or on brittle, keyword-based metrics like ROUGE, which fail to capture the semantic essence of a high-quality explanation. In this work, we introduce a novel approach to reward shaping within the Group Relative Policy Optimisation (GRPO) framework. Our central contribution is the use of a small, efficient encoder-only transformer as a semantic reward model. This model provides a dense, semantically rich reward signal based on the cosine similarity between a generated explanation and a ground-truth reference, guiding the policy towards explanations that are not just factually correct but also structurally and conceptually aligned with expert reasoning. We apply this method to the task of training a model for the Italian medical-school entrance examinations, following standard domain-adaptive continued pre-training (CPT) and supervised fine-tuning (SFT). Our results demonstrate that GRPO with our proposed semantic reward significantly improves explanation faithfulness and clarity over a strong SFT baseline, showcasing the power of using lightweight encoder models for nuanced reward shaping in complex generation tasks
- Abstract(参考訳): 大きな言語モデル(LLMs)は人間のようなテキストを生成するのに優れていますが、その出力を教育的健全性のような複雑で質的な目標と整合させることは大きな課題です。
標準的な強化学習技術は、しばしば遅くて高価なLCM-as-a-judge評価やROUGEのような脆弱なキーワードベースのメトリクスに依存しており、高品質な説明のセマンティックな本質を捉えていない。
本稿では,GRPO(Group Relative Policy Optimisation)フレームワークにおける報酬形成の新たなアプローチを紹介する。
私たちの中心的な貢献は、セマンティック報酬モデルとして、小型で効率的なエンコーダのみのトランスフォーマーを使用することです。
このモデルは、生成した説明と地味な参照のコサイン類似性に基づいて、密集した意味的にリッチな報酬信号を提供し、事実的正確であるだけでなく、専門家の推論と構造的および概念的に整合した説明へのポリシーを導く。
本手法は,標準的なドメイン適応型継続事前訓練 (CPT) と教師付き微調整 (SFT) の後に,イタリアの医学部入学試験のモデルを訓練する作業に適用する。
提案したセマンティック報酬を用いたGRPOは,より強力なSFTベースラインに対する説明の忠実さと明快さを著しく向上し,複雑な生成タスクにおけるニュアンスド報酬形成のための軽量エンコーダモデルの有用性を示す。
関連論文リスト
- Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries [3.930598942647121]
本稿では、説明に基づくスロットフレームワークを用いて予測を行う2段階のLMに基づく評価報酬モデルを提案する。
ヒューマンフィードバック(RLHF)からの強化学習とアウト・オブ・ディストリビューション(OOD)シナリオの両方において、ESFP-RMフレームワークはより安定的で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-25T17:11:28Z) - G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance [1.0591274452539035]
転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
論文 参考訳(メタデータ) (2025-08-18T15:41:16Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [46.65999744568314]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。
モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。
QA-LIGNはより透明性と適応性を提供することを示した。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。