論文の概要: TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization
- arxiv url: http://arxiv.org/abs/2601.16480v1
- Date: Fri, 23 Jan 2026 06:21:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.567954
- Title: TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization
- Title(参考訳): TL-GRPO:Reasoning-Guided Iterative OptimizationのためのターンレベルRL
- Authors: Peiji Li, Linyang Li, Handa Sun, Wenjin Mai, Yongkang Chen, Xiaozhe Li, Yue Shen, Yichuan Ma, Yiliu Sun, Jiaxi Cao, Zhishu He, Bo Wang, Xiaoqing Zheng, Zhaori Bi, Xipeng Qiu, Qipeng Guo, Kai Chen, Dahua Lin,
- Abstract要約: 大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
- 参考スコア(独自算出の注目度): 97.18886232580131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated strong reasoning capabilities in complex tasks through tool integration, which is typically framed as a Markov Decision Process and optimized with trajectory-level RL algorithms such as GRPO. However, a common class of reasoning tasks, iterative optimization, presents distinct challenges: the agent interacts with the same underlying environment state across turns, and the value of a trajectory is determined by the best turn-level reward rather than cumulative returns. Existing GRPO-based methods cannot perform fine-grained, turn-level optimization in such settings, while black-box optimization methods discard prior knowledge and reasoning capabilities. To address this gap, we propose Turn-Level GRPO (TL-GRPO), a lightweight RL algorithm that performs turn-level group sampling for fine-grained optimization. We evaluate TL-GRPO on analog circuit sizing (ACS), a challenging scientific optimization task requiring multiple simulations and domain expertise. Results show that TL-GRPO outperforms standard GRPO and Bayesian optimization methods across various specifications. Furthermore, our 30B model trained with TL-GRPO achieves state-of-the-art performance on ACS tasks under same simulation budget, demonstrating both strong generalization and practical utility.
- Abstract(参考訳): 大規模言語モデルは、ツール統合を通じて複雑なタスクにおいて強力な推論能力を示しており、通常はマルコフ決定プロセスとしてフレーム化され、GRPOのような軌道レベルのRLアルゴリズムで最適化されている。
しかし、推論タスクの共通クラスである反復最適化では、エージェントがターン間で同じ環境状態と相互作用し、軌道の値は累積リターンではなくターンレベルのリターンによって決定される。
既存のGRPOベースの手法では、そのような設定で細粒度でターンレベルの最適化を行うことができず、ブラックボックス最適化手法は事前の知識と推論能力を捨てる。
このギャップに対処するために,ターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPO(TL-GRPO)を提案する。
我々は、複数のシミュレーションとドメインの専門知識を必要とする科学的最適化課題であるアナログ回路サイズ(ACS)のTL-GRPOを評価する。
その結果,TL-GRPO は標準 GRPO やベイジアン最適化法よりも高い性能を示した。
さらに, TL-GRPOを用いて訓練した30Bモデルでは, シミュレーション予算が同じであり, 高い一般化と実用性を実証できる。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Expand and Prune: Maximizing Trajectory Diversity for Effective GRPO in Generative Models [37.48289959306949]
グループ相対政策最適化は、生成モデルを調整するための強力なテクニックである。
しかし、その効果は、大規模なグループサイズと禁止的な計算コストの衝突によってボトルネックとなる。
提案するPro-GRPOは,遅延特徴に基づく軌道プルーニングをサンプリングプロセスに統合する新しい動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-17T11:44:34Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation [29.015994347609936]
Group Relative Policy Optimization (GRPO)は、フローマッチングベースのテキスト・ツー・イメージ(T2I)生成に強い可能性を示している。
我々は、最適化のパラダイムをステップレベルからチャンクレベルにシフトすることで、これらの問題を効果的に軽減できると主張している。
Chunk-GRPOは、T2I生成のための最初のチャンクレベルGRPOベースのアプローチである。
論文 参考訳(メタデータ) (2025-10-24T15:50:36Z) - VAGPO: Vision-augmented Asymmetric Group Preference Optimization for Graph Routing Problems [27.70647397895125]
グラフルーティング問題は、グラフ間の最適な経路を見つけることが不可欠であるWeb関連ネットワークにおいて重要な役割を果たす。
最近のデータ駆動最適化手法は大きな進歩を遂げているが、訓練効率と大規模インスタンスへの一般化の限界に直面していることが多い。
本稿では,空間構造と時間的依存関係の両方をキャプチャする,視覚拡張型非対称グループ優先最適化(VAGPO)手法を提案する。
論文 参考訳(メタデータ) (2025-08-03T14:19:12Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。