論文の概要: Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs
- arxiv url: http://arxiv.org/abs/2508.04660v1
- Date: Wed, 06 Aug 2025 17:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.848255
- Title: Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs
- Title(参考訳): マルチモジュールGRPO:言語モデルプログラムのポリシー勾配とプロンプト最適化
- Authors: Noah Ziems, Dilara Soylu, Lakshya A Agrawal, Isaac Miller, Liheng Lai, Chen Qian, Kaiqiang Song, Meng Jiang, Dan Klein, Matei Zaharia, Karel D'Oosterlinck, Christopher Potts, Omar Khattab,
- Abstract要約: グループ相対政策最適化(GRPO)は、後学習言語モデル(LM)に有効なツールであることが証明されている。
GRPOの単純なマルチモジュールであるmmGRPOを提案する。
自動的なプロンプト最適化によって構成されたmGRPOは,分類,多項目検索,プライバシー保護デリゲートタスクなどを通じて,平均11%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 77.22973302887435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has proven to be an effective tool for post-training language models (LMs). However, AI systems are increasingly expressed as modular programs that mix together multiple LM calls with distinct prompt templates and other tools, and it is not clear how best to leverage GRPO to improve these systems. We begin to address this challenge by defining mmGRPO, a simple multi-module generalization of GRPO that groups LM calls by module across rollouts and handles variable-length and interrupted trajectories. We find that mmGRPO, composed with automatic prompt optimization, improves accuracy by 11% on average across classification, many-hop search, and privacy-preserving delegation tasks against the post-trained LM, and by 5% against prompt optimization on its own. We open-source mmGRPO in DSPy as the dspy.GRPO optimizer.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、後学習言語モデル(LM)に有効なツールであることが証明されている。
しかし、AIシステムは、複数のLMコールと異なるプロンプトテンプレートやその他のツールを混ぜ合わせたモジュラープログラムとして表現されることが多く、これらのシステムを改善するためにGRPOをどのように活用するかは明らかになっていない。
mmGRPO は LM コールをロールアウトするモジュールによってグループ化し、可変長および割り込みされたトラジェクトリを処理する GRPO の単純な多モジュール一般化である。
自動的なプロンプト最適化によって構成されたmGRPOは,学習後LMに対する分類,多項目検索,プライバシ保護デリゲートタスクの平均で11%の精度向上を実現し,また,独自のプロンプト最適化に対して5%の精度向上を実現している。
DSPyのmmGRPOをdspy.GRPOオプティマイザとしてオープンソース化した。
関連論文リスト
- GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。
GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。
ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文 参考訳(メタデータ) (2025-07-25T17:42:32Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers [52.17222304851524]
本稿では,タスク固有の推論よりも勾配情報を直接組み込む新しいプロンプト最適化手法であるGReaTerを紹介する。
GReaTerはタスク損失勾配を利用して、オープンソースの軽量言語モデルのためのプロンプトの自己最適化を可能にする。
GReaTerは、従来の最先端のプロンプト最適化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T20:59:43Z) - Optimizing Instructions and Demonstrations for Multi-Stage Language Model Programs [40.159064885288245]
言語モデルプログラムの即時最適化について検討する。
この問題を各モジュールのフリーフォーム命令と数発のデモの最適化に分解する。
我々は,LMプログラムを最適化する新しいアルゴリズムであるMIPROを開発した。
論文 参考訳(メタデータ) (2024-06-17T16:12:03Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Group Preference Optimization: Few-Shot Alignment of Large Language Models [28.464834028110538]
グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
論文 参考訳(メタデータ) (2023-10-17T18:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。