論文の概要: STEP: Success-Rate-Aware Trajectory-Efficient Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.13091v1
- Date: Mon, 17 Nov 2025 07:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.908209
- Title: STEP: Success-Rate-Aware Trajectory-Efficient Policy Optimization
- Title(参考訳): STEP:成功率を考慮した軌道効率的な政策最適化
- Authors: Yuhan Chen, Yuxuan Liu, Long Zhang, Pengzhi Gao, Jian Luan, Wei Liu,
- Abstract要約: 軌道レベルの最適化は、各軌道を単一のトレーニングサンプルとして扱う。
このアプローチは非効率であり、誤解を招く学習信号が得られる。
提案するSTEP(Success-rate-aware Trajectory-Efficient Policy Optimization)は,タスクごとの成功率に基づいてサンプリングを動的に割り当てるフレームワークである。
- 参考スコア(独自算出の注目度): 23.48518286261969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn interaction remains challenging for online reinforcement learning. A common solution is trajectory-level optimization, which treats each trajectory as a single training sample. However, this approach can be inefficient and yield misleading learning signals: it applies uniform sampling across tasks regardless of difficulty, penalizes correct intermediate actions in failed trajectories, and incurs high sample-collection costs. To address these issues, we propose STEP (Success-rate-aware Trajectory-Efficient Policy optimization), a framework that dynamically allocates sampling based on per-task success rates and performs step-level optimization. STEP maintains a smoothed success-rate record to guide adaptive trajectory resampling, allocating more effort to harder tasks. It then computes success-rate-weighted advantages and decomposes trajectories into step-level samples. Finally, it applies a step-level GRPO augmentation to refine updates for low-success tasks. Experiments on OSWorld and AndroidWorld show that STEP substantially improves sample efficiency and training stability over trajectory-level GRPO, converging faster and generalizing better under the same sampling budget.
- Abstract(参考訳): オンライン強化学習では,マルチターンインタラクションが依然として難しい。
一般的な解法は軌道レベルの最適化であり、各軌道を単一の訓練サンプルとして扱う。
しかし、このアプローチは非効率であり、難易度に関わらずタスクを均一にサンプリングし、失敗した軌道における正しい中間動作をペナルティ化し、高いサンプル収集コストを発生させる、誤った学習信号をもたらす可能性がある。
これらの問題に対処するため,STEP(Success-rate-aware Trajectory-Efficient Policy Optimization)を提案する。
STEPは、適応的な軌道再サンプリングをガイドするために、スムーズな成功率の記録を維持しており、より難しいタスクにより多くの労力を割いている。
その後、成功率重み付けされた利点を計算し、軌道をステップレベルのサンプルに分解する。
最後に、低精度タスクの更新を洗練するために、ステップレベルのGRPO拡張を適用します。
OSWorldとAndroidWorldの実験では、STEPは軌道レベルのGRPOよりもサンプル効率とトレーニング安定性を大幅に改善し、より高速に収束し、同じサンプリング予算下での一般化を実現している。
関連論文リスト
- BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - STeCa: Step-level Trajectory Calibration for LLM Agent Learning [9.678098205818566]
大規模言語モデル(LLM)ベースのエージェントは、環境と動的に相互作用することで複雑なタスクに取り組むことを約束している。
LLMエージェント学習のための新しいフレームワークであるStep-Level Trajectory (STeCa)を提案する。
論文 参考訳(メタデータ) (2025-02-20T05:28:44Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。