論文の概要: Shaping Explanations: Semantic Reward Modeling with Encoder-Only Transformers for GRPO
- arxiv url: http://arxiv.org/abs/2509.13081v1
- Date: Tue, 16 Sep 2025 13:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.109098
- Title: Shaping Explanations: Semantic Reward Modeling with Encoder-Only Transformers for GRPO
- Title(参考訳): 形状説明: GRPO用エンコーダオンリー変圧器を用いた意味的リワードモデリング
- Authors: Francesco Pappone, Ruggero Marino Lazzaroni, Federico Califano, Niccolò Gentile, Roberto Marras,
- Abstract要約: グループ相対政策最適化フレームワークにおいて,報酬形成のための新たなアプローチを導入する。
私たちの中心的な貢献は、セマンティック報酬モデルとして、小型で効率的なエンコーダのみのトランスフォーマーを使用することです。
本手法は,イタリア医学部入学試験のモデルを訓練する作業に適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel at generating human-like text, aligning their outputs with complex, qualitative goals like pedagogical soundness remains a significant challenge. Standard reinforcement learning techniques often rely on slow and expensive LLM-as-a-judge evaluations or on brittle, keyword-based metrics like ROUGE, which fail to capture the semantic essence of a high-quality explanation. In this work, we introduce a novel approach to reward shaping within the Group Relative Policy Optimisation (GRPO) framework. Our central contribution is the use of a small, efficient encoder-only transformer as a semantic reward model. This model provides a dense, semantically rich reward signal based on the cosine similarity between a generated explanation and a ground-truth reference, guiding the policy towards explanations that are not just factually correct but also structurally and conceptually aligned with expert reasoning. We apply this method to the task of training a model for the Italian medical-school entrance examinations, following standard domain-adaptive continued pre-training (CPT) and supervised fine-tuning (SFT). Our results demonstrate that GRPO with our proposed semantic reward significantly improves explanation faithfulness and clarity over a strong SFT baseline, showcasing the power of using lightweight encoder models for nuanced reward shaping in complex generation tasks
- Abstract(参考訳): 大きな言語モデル(LLMs)は人間のようなテキストを生成するのに優れていますが、その出力を教育的健全性のような複雑で質的な目標と整合させることは大きな課題です。
標準的な強化学習技術は、しばしば遅くて高価なLCM-as-a-judge評価やROUGEのような脆弱なキーワードベースのメトリクスに依存しており、高品質な説明のセマンティックな本質を捉えていない。
本稿では,GRPO(Group Relative Policy Optimisation)フレームワークにおける報酬形成の新たなアプローチを紹介する。
私たちの中心的な貢献は、セマンティック報酬モデルとして、小型で効率的なエンコーダのみのトランスフォーマーを使用することです。
このモデルは、生成した説明と地味な参照のコサイン類似性に基づいて、密集した意味的にリッチな報酬信号を提供し、事実的正確であるだけでなく、専門家の推論と構造的および概念的に整合した説明へのポリシーを導く。
本手法は,標準的なドメイン適応型継続事前訓練 (CPT) と教師付き微調整 (SFT) の後に,イタリアの医学部入学試験のモデルを訓練する作業に適用する。
提案したセマンティック報酬を用いたGRPOは,より強力なSFTベースラインに対する説明の忠実さと明快さを著しく向上し,複雑な生成タスクにおけるニュアンスド報酬形成のための軽量エンコーダモデルの有用性を示す。
関連論文リスト
- Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - A First-Order Logic-Based Alternative to Reward Models in RLHF [0.0]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の価値観と嗜好の整合において重要な役割を果たす。
既存のアプローチは報酬モデルに大きく依存し、言語モデルから人間に沿った行動へと導く。
本稿では,従来の報酬モデルに代わる論理類似性に基づく報酬機構を提案する。
論文 参考訳(メタデータ) (2025-12-16T05:15:17Z) - Parent-Guided Semantic Reward Model (PGSRM): Embedding-Based Reward Functions for Reinforcement Learning of Transformer Language Models [51.56484100374058]
PGSRM(Parent-Guided Semantic Reward Model)を紹介する。
PGSRMはバイナリの正当性信号、人間の嗜好データ、訓練された報酬モデルを単純な信号で置き換える。
PGSRMは2次報酬ベースラインよりもスムーズな報酬改善とより安定したPPOダイナミクスを実現している。
論文 参考訳(メタデータ) (2025-12-07T16:58:22Z) - Multi-Reward GRPO for Stable and Prosodic Single-Codebook TTS LLMs at Scale [12.626090218930578]
シングルコードブックのテキスト音声モデルは不安定な韻律、話者のドリフト、劣化した自然性を示すことが多い。
単行本TS LLMのトークン生成ポリシーを直接最適化するマルチリワードグループ相対ポリシー最適化フレームワークを提案する。
提案手法は, 単行本TS LLMにおける韻律安定性, 話者類似性, 音声の自然度を連続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T10:50:17Z) - ENIGMA: The Geometry of Reasoning and Alignment in Large-Language Models [0.0]
エントロピー多言語モデルアライメント(ENIGMA)について述べる。
組織の方針や原則を、モデルの情報多様体に移動する方向として扱うことで、推論、アライメント、ロバスト性を改善する。
論文 参考訳(メタデータ) (2025-10-13T11:13:09Z) - Beyond Imitation: Recovering Dense Rewards from Demonstrations [64.05543657441218]
教師付き微調整は単純な模倣学習プロセスとして扱われ、データセット上の専門家の振る舞いを模倣するポリシーを訓練するのみである。
我々は、SFTプロセスが政策を学習するだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルも示している。
Dense-Path ReINFORCEは命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-10-02T18:58:26Z) - Better Language Model-Based Judging Reward Modeling through Scaling Comprehension Boundaries [3.930598942647121]
本稿では、説明に基づくスロットフレームワークを用いて予測を行う2段階のLMに基づく評価報酬モデルを提案する。
ヒューマンフィードバック(RLHF)からの強化学習とアウト・オブ・ディストリビューション(OOD)シナリオの両方において、ESFP-RMフレームワークはより安定的で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-25T17:11:28Z) - G$^2$RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance [1.0591274452539035]
転がり軌道に地道推論ステップを注入するガイドGRPOについて検討する。
率直にガイダンスを追加することで、利益が制限されることに気付きました。
数学的推論とコード生成ベンチマークの実験により、G$2$RPO-AがバニラGRPOを大幅に上回っていることが確認された。
論文 参考訳(メタデータ) (2025-08-18T15:41:16Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [46.65999744568314]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。
モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。
QA-LIGNはより透明性と適応性を提供することを示した。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。