論文の概要: MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics
- arxiv url: http://arxiv.org/abs/2603.09237v1
- Date: Tue, 10 Mar 2026 06:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.14711
- Title: MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics
- Title(参考訳): MO-Playground:ロボットのための大規模並列多目的強化学習
- Authors: Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker,
- Abstract要約: 我々はGPUネイティブで高速なMORLアルゴリズムであるMORLAXを提案する。
また、GPUアクセラレーションによるマルチオブジェクト環境のピップインストール可能なプレイグラウンドであるMO-Playgroundも紹介する。
我々は,BRUCEヒューマノイドロボット環境を実装することで,我々のアプローチの汎用性を実証する。
- 参考スコア(独自算出の注目度): 3.4792852971609096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) is a powerful tool to learn Pareto-optimal policy families across conflicting objectives. However, unlike traditional RL algorithms, existing MORL algorithms do not effectively leverage large-scale parallelization to concurrently simulate thousands of environments, resulting in vastly increased computation time. Ultimately, this has limited MORL's application towards complex multi-objective robotics problems. To address these challenges, we present 1) MORLAX, a new GPU-native, fast MORL algorithm, and 2) MO-Playground, a pip-installable playground of GPU-accelerated multi-objective environments. Together, MORLAX and MO-Playground approximate Pareto sets within minutes, offering 25-270x speed-ups compared to legacy CPU-based approaches whilst achieving superior Pareto front hypervolumes. We demonstrate the versatility of our approach by implementing a custom BRUCE humanoid robot environment using MO-Playground and learning Pareto-optimal locomotion policies across 6 realistic objectives for BRUCE, such as smoothness, efficiency and arm swinging.
- Abstract(参考訳): 多目的強化学習(MORL)は、対立する目的を越えてパレート最適政策ファミリを学習するための強力なツールである。
しかし、従来のRLアルゴリズムとは異なり、既存のMORLアルゴリズムは大規模並列化を効果的に活用せず、数千の環境を同時にシミュレートする。
結局のところ、これは複雑な多目的ロボット問題に対するMORLの応用に限られている。
これらの課題に対処するために、我々は
1 MORLAXはGPUネイティブで高速なMORLアルゴリズムである。
2 MO-Playgroundは、GPUアクセラレーションによるマルチオブジェクト環境のピップインストール可能なプレイグラウンドである。
MORLAXとMO-Playgroundはパレートセットを数分で近似し、従来のCPUベースのアプローチと比較して25~270倍のスピードアップを提供する。
提案手法は,MO-Playground を用いたカスタムなBRUCEヒューマノイドロボット環境の実現と,BRUCE のスムーズ性,効率性,腕振りなど,6つの現実的な目標に対するパレート最適移動ポリシーの学習によって実現されている。
関連論文リスト
- High-Performance Reinforcement Learning on Spot: Optimizing Simulation Parameters with Distributional Measures [8.437187555622167]
本稿では,Boston Dynamics Spot上での低レベルモータアクセスのためのSpot RL Researcher Development Kitを用いて,高性能強化学習ポリシーの展開の背景となる技術的詳細について述べる。
我々は,5.2ms以上のロコモーション,トリプルSpotsデフォルトのコントローラの最大速度以上のポリシを,滑りやすい表面への展開,外乱の拒絶,これまでSpotで見つからなかった全体的なアジリティに展開する。
論文 参考訳(メタデータ) (2025-04-24T18:01:36Z) - Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation [11.360832156847103]
本稿では,剛体や変形物を含むタスクにおけるRLのスケーリングを実現するための,新しいRLアルゴリズムとシミュレーションプラットフォームを提案する。
我々は,最大エントロピー1次モデルに基づくRLアルゴリズムであるSoft Analytic Policy (SAPO)を導入する。
また,剛体以外の様々な材料を模擬する並列微分可能多物理シミュレーションプラットフォームであるRewarpedを開発した。
論文 参考訳(メタデータ) (2024-12-16T18:56:24Z) - Learning Pareto Set for Multi-Objective Continuous Robot Control [7.853788769559891]
本研究では,高次元ポリシーパラメータ空間におけるパレート集合の連続表現を学習する,単純かつ資源効率のMORLアルゴリズムを提案する。
実験結果から,本手法はトレーニングパラメータを最小にすることで,最高の総合的な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-06-27T06:31:51Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。