論文の概要: GAPO: Group Adaptive Policy Optimization for Real-World Code Edit
- arxiv url: http://arxiv.org/abs/2510.21830v1
- Date: Wed, 22 Oct 2025 03:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.595041
- Title: GAPO: Group Adaptive Policy Optimization for Real-World Code Edit
- Title(参考訳): GAPO: リアルタイムコード編集のためのグループ適応ポリシー最適化
- Authors: Jianqing Zhang, Zhezheng Hao, Wei Xia, Hande Dong, Hong Wang, Chenxing Wei, Yuyan Zhou, Yubin Qi, Qiang Lin, Jian Cao,
- Abstract要約: Group Adaptive Policy Optimization (GAPO) は、各プロンプト当たりのoutlier-free highest-density interval (HDI)を見つけ、その区間の中央値を適応Qとして利用して、グループ平均を有利な計算で置き換える。
GAPOは、プラグアンドプレイと効率を保ちながら、歪んだ分布を頑健に処理する。
GAPOを実世界51,844の大規模内部データセットを用いて,9つの命令調整LDM(3B-14B)上で検証する。
- 参考スコア(独自算出の注目度): 18.191276089029607
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) is widely used for post-training large language models (LLMs) in code editing, where group-relative methods like GRPO are popular for their critic-free, normalized advantage estimation. However, in real-world code-editing scenarios, reward distributions are often skewed with unpredictable outliers, leading to distorted advantage computation and increased noise. To address this issue, we propose Group Adaptive Policy Optimization (GAPO), which adaptively finds an outlier-free highest-density interval (HDI) per prompt and then uses the median of that interval as an adaptive Q to replace the group mean in advantage calculation. This adaptive Q robustly handles skewed distributions while remaining plug-and-play and efficient. We validate GAPO on nine instruction-tuned LLMs (3B-14B) using a large internal dataset of 51,844 real-world, history-aware code-editing tasks across 10 languages, demonstrating consistent improvements in exact match accuracy over GRPO and its variant DAPO. Code is publicly available.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、コード編集における大規模言語モデル(LLM)のポストトレーニングに広く用いられている。
しかし、現実世界のコード編集のシナリオでは、報酬分布は予測不能な外れ値で歪められ、ゆがみのある利点計算とノイズの増加につながる。
この問題に対処するため,グループ適応ポリシー最適化 (GAPO) を提案する。これは,各プロンプト当たりの外れ値のない最高密度区間 (HDI) を適応的に検出し,その区間の中央値を適応Qとして使用することにより,グループ平均を有利な計算で置き換える。
この適応Qは、プラグアンドプレイを保ちながら歪んだ分布を頑健に処理する。
GAPOを実世界51,844の大規模内部データセットを用いて,9つの命令調整LDM(3B-14B)上で検証し,GRPOとその変種DAPOに対する精度の整合性を検証した。
コードは公開されている。
関連論文リスト
- Reinforcing Diffusion Models by Direct Group Preference Optimization [19.195805549362074]
グループ選好最適化(DGPO)は、グループ内のサンプルの相対情報を利用するグループレベルの選好から直接学習する。
その結果、DGPOは既存の最先端手法の約20倍の速度でトレーニングを行い、ドメイン内および外部メトリクスの報酬よりも優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-10-09T16:40:43Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward [10.640867597958863]
提案するPrefix Grouperは,より効率的なGRPO学習アルゴリズムであり,Shared-Prefix Forward戦略を用いて冗長なプレフィックスを除去する。
自己注意を2つの部分に再構成することで、共有プレフィックスを1回だけエンコードすることが可能となる。
我々は、Prefix Grouperが標準GRPOと同等のトレーニングであるという理論的および実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-06-05T09:13:37Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.157278744897427]
グループ相対政策最適化(GRPO)は、グループ内の全ての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案された。
より適応的な利点推定モデルを用いて、KRPOはGRPOの安定性と性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。