Fugu-MT 論文翻訳(概要): SAPG: Split and Aggregate Policy Gradients

論文の概要: SAPG: Split and Aggregate Policy Gradients

arxiv url: http://arxiv.org/abs/2407.20230v1
Date: Mon, 29 Jul 2024 17:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 12:55:07.155752
Title: SAPG: Split and Aggregate Policy Gradients
Title（参考訳）: SAPG: 政策グラディエントを分割し、集約する
Authors: Jayesh Singla, Ananye Agarwal, Deepak Pathak,
Abstract要約: 本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
参考スコア（独自算出の注目度）: 37.433915947580076
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite extreme sample inefficiency, on-policy reinforcement learning, aka policy gradients, has become a fundamental tool in decision-making problems. With the recent advances in GPU-driven simulation, the ability to collect large amounts of data for RL training has scaled exponentially. However, we show that current RL methods, e.g. PPO, fail to ingest the benefit of parallelized environments beyond a certain point and their performance saturates. To address this, we propose a new on-policy RL algorithm that can effectively leverage large-scale environments by splitting them into chunks and fusing them back together via importance sampling. Our algorithm, termed SAPG, shows significantly higher performance across a variety of challenging environments where vanilla PPO and other strong baselines fail to achieve high performance. Website at https://sapg-rl.github.io/
Abstract（参考訳）: 極端なサンプル非効率さにもかかわらず、政治的強化学習(いわゆる政策勾配)は意思決定問題の根本的手段となっている。 GPU駆動シミュレーションの最近の進歩により、RLトレーニングのための大量のデータを収集する能力は指数関数的に拡大した。しかし、現在のRL手法、例えばPPOは、特定の点を超えて並列化された環境の利点を損なうことができず、その性能が飽和していることを示す。そこで本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。 https://sapg-rl.github.io/

関連論文リスト

LLMs Can Learn to Reason Via Off-Policy RL [17.2941334301927]
LLM(Large Language Models)の強化学習アプローチでは、PPOやGRPOといった政治アルゴリズムが頻繁に使用される。タグ付き推論ポリシー(OAPL)を用いた最適アドバンテージに基づく政策最適化法(OAPL)を提案する。 OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
論文参考訳（メタデータ） (2026-02-22T22:12:51Z)
SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文参考訳（メタデータ） (2026-01-29T09:56:15Z)
End-to-end RL Improves Dexterous Grasping Policies [64.8476328230578]
本研究は,画像に基づくエンドツーエンド学習のスケールアップ手法について,腕+手システムによる器用な把握について検討する。我々は、深度と状態に基づく政策の両方をステレオRGBネットワークに訓練・蒸留し、深度蒸留がシミュレーションと現実の両方においてより良い結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-09-19T21:21:29Z)
ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。 OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-05-22T06:24:32Z)
Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。 PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文参考訳（メタデータ） (2025-04-18T17:49:55Z)
Evolutionary Policy Optimization [47.30139909878251]
現在のオン政治手法では、並列化された環境の利点を十分に活用できない。 EPOは、EAの強みと政策勾配を組み合わせた、新しい政策勾配アルゴリズムである。 EPOは多様で挑戦的な環境におけるパフォーマンスを著しく向上させる。
論文参考訳（メタデータ） (2025-03-24T18:08:54Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文参考訳（メタデータ） (2024-09-02T19:10:32Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文参考訳（メタデータ） (2023-12-13T18:58:56Z)
Bridging RL Theory and Practice with the Effective Horizon [18.706109961534676]
先行境界は、深いRLが成功するか失敗するかは相関しないことを示す。我々はこれを、有効地平線と呼ぶ新しいMDPの複雑さ尺度に一般化する。また,既存の境界と異なり,実効地平線は報酬形成や事前訓練された探査政策を用いることの効果を予測できることがわかった。
論文参考訳（メタデータ） (2023-04-19T17:59:01Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Online Sub-Sampling for Reinforcement Learning with General Function Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文参考訳（メタデータ） (2021-06-14T07:36:25Z)
POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。 POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-12-26T06:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。