論文の概要: GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.15256v1
- Date: Wed, 19 Nov 2025 09:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.717839
- Title: GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning
- Title(参考訳): GRPO-RM:GRPO-Driven Reinforcement Learningによる微調整表現モデル
- Authors: Yanchen Xu, Ziheng Jiao, Hongyuan Zhang, Xuelong Li,
- Abstract要約: 我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
- 参考スコア(独自算出の注目度): 52.16150076582931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Group Relative Policy Optimization (GRPO), a reinforcement learning method used to fine-tune large language models (LLMs), has proved its effectiveness in practical applications such as DeepSeek-R1. It raises a question whether GRPO can be generalized to representation learning models. In this paper, we propose Group Relative Policy Optimization for Representation Model (GRPO-RM), and investigate the performance of GRPO-like policy in post-training representation models. Specifically, our method establishes a predefined output set to functionally replace token sequence sampling in LLMs, thereby generating an output group, which is essential for the probability-driven optimization of GRPO. In addition, a specialized reward function is designed to accommodate the properties of representation models. Extensive experiments are conducted on various real-world datasets to validate the effectiveness of our proposed method.
- Abstract(参考訳): 大規模言語モデル(LLM)の微調整に使用される強化学習手法であるGRPO (Group Relative Policy Optimization) は,DeepSeek-R1 などの実用的な応用において有効であることが証明されている。
GRPOが表現学習モデルに一般化できるかどうかという疑問が提起される。
本稿では,GRPO-RM(Group Relative Policy Optimization for Representation Model, Group Relative Policy Optimization for Representation Model)を提案する。
具体的には, LLM におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立し, GRPO の確率駆動最適化に不可欠な出力グループを生成する。
さらに、特殊報酬関数は表現モデルの性質を満たすように設計されている。
提案手法の有効性を検証するために,様々な実世界のデータセットを用いて大規模な実験を行った。
関連論文リスト
- Understanding Generative Recommendation with Semantic IDs from a Model-scaling View [57.471604518714535]
Generative Recommendation (GR)は、リッチアイテムのセマンティクスと協調フィルタリング信号を統合する。
一般的なアプローチの1つは、セマンティックID(SID)を使用して、自動回帰ユーザーインタラクションシーケンスモデリングのセットアップでアイテムを表現することである。
SIDをベースとしたGRは,モデルをスケールアップしながら大きなボトルネックを示す。
我々は、大規模言語モデル(LLM)を直接レコメンデーションとして使用する別のGRパラダイムを再考する。
論文 参考訳(メタデータ) (2025-09-29T21:24:17Z) - GRPO is Secretly a Process Reward Model [5.637496960655903]
GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
論文 参考訳(メタデータ) (2025-09-25T13:40:36Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。