Fugu-MT 論文翻訳(概要): What is the Alignment Objective of GRPO?

論文の概要: What is the Alignment Objective of GRPO?

arxiv url: http://arxiv.org/abs/2502.18548v3
Date: Thu, 13 Mar 2025 16:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 17:08:08.222648
Title: What is the Alignment Objective of GRPO?
Title（参考訳）: GRPOのアライメント目的とは何か?
Authors: Milan Vojnovic, Se-Young Yun,
Abstract要約: 本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。選好アグリゲーションの正確な形は、報酬選好モデルの定義方法とペナルティ関数から生じる。二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。
参考スコア（独自算出の注目度）: 30.36318490634376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this note, we examine the aggregation of preferences achieved by the Group Policy Optimisation (GRPO) algorithm, a reinforcement learning method used to train advanced artificial intelligence models such as DeepSeek-R1-Zero and DeepSeekMath. The GRPO algorithm trains a policy using a reward preference model, which is computed by sampling a set of outputs for a given context, observing the corresponding rewards, and applying shift-and-scale normalisation to these reward values. Additionally, it incorporates a penalty function to discourage deviations from a reference policy. We present a framework that enables us to characterise the stationary policies of the GRPO algorithm. This analysis reveals that the aggregation of preferences differs fundamentally from standard logarithmic pooling, which is implemented by other approaches such as RLHF. The precise form of preference aggregation arises from the way the reward preference model is defined and from the penalty function, which we show to essentially correspond to the reverse Kullback-Leibler (KL) divergence between the aggregation policy and the reference policy. Interestingly, we demonstrate that for groups of size two, the reward preference model corresponds to pairwise comparison preferences, similar to those in other alignment methods based on pairwise comparison feedback. We provide explicit characterisations of the aggregate preference for binary questions, for groups of size two, and in the limit of large group size. This provides insights into the dependence of the aggregate preference on parameters such as the regularisation constant and the confidence margin of question answers. Finally, we discuss the aggregation of preferences obtained by modifying the GRPO algorithm to use direct KL divergence as the penalty or to use rewards without scale normalisation.
Abstract（参考訳）: 本稿では,DeepSeek-R1-Zero や DeepSeekMath といった先進的な人工知能モデルを学習するための強化学習手法であるグループポリシー最適化 (GRPO) アルゴリズムによって達成された嗜好の集約について検討する。 GRPOアルゴリズムは、与えられた状況に対する一連の出力をサンプリングし、対応する報酬を観察し、これらの報酬値にシフト・アンド・スケールの正規化を適用することで計算される報酬選好モデルを用いてポリシーを訓練する。さらに、参照ポリシーからの逸脱を回避するためのペナルティ機能も組み込まれている。本稿では,GRPOアルゴリズムの定常ポリシを特徴付けるためのフレームワークを提案する。この分析により、RLHFのような他の手法によって実装された標準対数プールとは、好みの集約が根本的に異なることが明らかになった。選好アグリゲーションの正確な形は、報酬選好モデルの定義方法と、ペナルティ関数から生じ、これは基本的に、アグリゲーションポリシーと参照ポリシーの間の逆のKL(Kullback-Leibler)ばらつきに対応することを示す。興味深いことに、サイズ2の群では、報酬選好モデルはペアワイズ比較フィードバックに基づく他のアライメント手法と同様、ペアワイズ比較選好に対応することが示される。二分問題に対する集合的選好の明示的な特徴付けとして,大小2の群に対して,大小2の群に対して,大小の群を限定する。このことは、正規化定数や質問回答の信頼性マージンといったパラメータへの集合的選好の依存に関する洞察を与える。最後に、GRPOアルゴリズムを改良し、直接KLの発散をペナルティとして用いたり、スケールの正規化を伴わずに報酬を使ったりすることで得られる嗜好の集約について議論する。

関連論文リスト

On the Theory and Practice of GRPO: A Trajectory-Corrected Approach with Fast Convergence [2.8165669455824696]
Group Relative Policy Optimizationは、批判のない強化学習アルゴリズムである。 GRPO更新規則は,現行の方針よりも旧方針の政策勾配を推定する。軌道レベルの重要度補正 GRPO という新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-08-04T19:01:19Z)
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文参考訳（メタデータ） (2025-05-12T13:09:49Z)
Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文参考訳（メタデータ） (2024-11-15T02:46:55Z)
SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。 Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2024-04-05T13:58:51Z)
BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback [30.894025833141537]
勾配推定の高分散が、これらの手法の成功の欠如の主な原因である。我々はベイズの規則を用いて DPG, GDC, DPO の目標分布を一般化し、報酬条件後部を定義する。結果として得られたアプローチは、BRAInと呼ばれ、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。
論文参考訳（メタデータ） (2024-02-04T13:16:29Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Contextual bandits with concave rewards, and an application to fair ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文参考訳（メタデータ） (2022-10-18T16:11:55Z)
Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-10T21:09:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。