論文の概要: GPU-Parallel Multi-Task Reinforcement Learning with Demonstration Guided Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.03335v1
- Date: Tue, 02 Jun 2026 08:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.880203
- Title: GPU-Parallel Multi-Task Reinforcement Learning with Demonstration Guided Policy Optimization
- Title(参考訳): Demonstration Guided Policy Optimization を用いたGPUパラレルマルチタスク強化学習
- Authors: Rui Zhang, Qiwei Wu, Zhengyu Zhang, Tao Li, Yunrong Guo, Junjie Lai, Renjing Xu, Weihua Zhang,
- Abstract要約: 本稿では,構造化操作タスクファミリーをGPU並列マルチタスクRLベンチマークに変換する手法を提案する。
その結果得られたベンチマークは、異種タスクスイート上での同時強化学習をサポートする。
また,重み付きPPOと一致した実演行動における適応的行動クローニングを組み合わせた実演指導手法であるDGPOを提案する。
- 参考スコア(独自算出の注目度): 26.197318795235702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large scale GPU-parallel reinforcement learning has changed what can be trained in robot simulation, yet most systems still optimize one specialist policy per task. We propose a construction methodology for turning structured manipulation task families into GPU-parallel multi-task RL benchmarks, and instantiate it as MT-Libero using LIBERO assets and task predicates in Isaac Lab. The resulting benchmark supports simultaneous reinforcement learning over heterogeneous task suites with parallel rendering, physics randomization, and state-input or visual-input policies. To make such training practical under sparse success signals and limited prior data, we further propose DGPO, an on-policy demonstration guided method that combines importance weighted PPO with adaptive behavior cloning on matched demonstration actions. DGPO enables a tunable preference toward demonstrated task distributions, outperforming both prior-free RL and existing demonstration-based methods while preserving the stability and online improvement benefits of on-policy PPO.
- Abstract(参考訳): 大規模GPU並列強化学習は、ロボットシミュレーションでトレーニングできるものを変えたが、ほとんどのシステムはタスクごとに1つの専門ポリシーを最適化している。
本稿では,構造化操作タスクファミリーをGPU並列マルチタスクRLベンチマークに変換し,それをLIBEROアセットとIsaac Labのタスク述語を用いてMT-Liberoとしてインスタンス化する手法を提案する。
結果として得られたベンチマークは、並列レンダリング、物理ランダム化、状態入力または視覚入力ポリシを備えた異種タスクスイートの同時強化学習をサポートする。
そこで本稿では、重要度重み付きPPOと、一致した実演行動における適応的行動クローンを組み合わせた実演指導手法であるDGPOを提案する。
DGPOは、オンラインPPOの安定性とオンライン改善の利点を保ちつつ、事前自由なRLと既存の実演ベースの手法の両方を上回り、実証された課題分布に対する調整可能な選好を可能にする。
関連論文リスト
- SOP: A Scalable Online Post-Training System for Vision-Language-Action Models [15.86316960521611]
視覚言語アクション(VLA)モデルは、大規模な事前訓練を通じて強力な一般化を実現するが、現実の展開には幅広い汎用性に加えて、専門家レベルのタスク能力が必要である。
VLAモデルの既存のトレーニング後のアプローチは、通常、オフライン、シングルロボット、タスク固有である。
本稿では,一般VLAモデルのオンライン,分散,マルチタスクのポストトレーニングを物理世界に直接適用可能なスケーラブルオンラインポストトレーニングシステムを提案する。
論文 参考訳(メタデータ) (2026-01-06T14:25:11Z) - Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition [52.232968183793986]
General Policy Composition (GPC) は、複数の事前学習されたポリシーの分布スコアを組み合わせることで、パフォーマンスを向上させる訓練のない手法である。
GPCは、さまざまなタスクセットにおけるパフォーマンスと適応性を一貫して改善します。
論文 参考訳(メタデータ) (2025-10-01T16:05:53Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。