論文の概要: Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics
- arxiv url: http://arxiv.org/abs/2507.21638v1
- Date: Tue, 29 Jul 2025 09:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.968968
- Title: Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics
- Title(参考訳): Assistax:Assistive Roboticsのためのハードウェアアクセラレーション強化学習ベンチマーク
- Authors: Leonard Hinckeldey, Elliot Fosong, Elle Miller, Rimvydas Rubavicius, Trevor McInroe, Patricia Wollstadt, Christiane B. Wiebel-Herboth, Subramanian Ramamoorthy, Stefano V. Albrecht,
- Abstract要約: ゲームは、関連する課題を提示し、実行しやすく、理解しやすいため、強化学習ベンチマークを支配しています。
Assistaxは、支援ロボットタスクに起因する課題に対処するために設計されたオープンソースのベンチマークである。
オープンループのウォールタイムに関しては、AsistaxはCPUベースの代替よりもベクタライジングトレーニングの実行が速い場合、最大370タイムで動作します。
- 参考スコア(独自算出の注目度): 18.70896736010314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of reinforcement learning (RL) algorithms has been largely driven by ambitious challenge tasks and benchmarks. Games have dominated RL benchmarks because they present relevant challenges, are inexpensive to run and easy to understand. While games such as Go and Atari have led to many breakthroughs, they often do not directly translate to real-world embodied applications. In recognising the need to diversify RL benchmarks and addressing complexities that arise in embodied interaction scenarios, we introduce Assistax: an open-source benchmark designed to address challenges arising in assistive robotics tasks. Assistax uses JAX's hardware acceleration for significant speed-ups for learning in physics-based simulations. In terms of open-loop wall-clock time, Assistax runs up to $370\times$ faster when vectorising training runs compared to CPU-based alternatives. Assistax conceptualises the interaction between an assistive robot and an active human patient using multi-agent RL to train a population of diverse partner agents against which an embodied robotic agent's zero-shot coordination capabilities can be tested. Extensive evaluation and hyperparameter tuning for popular continuous control RL and MARL algorithms provide reliable baselines and establish Assistax as a practical benchmark for advancing RL research for assistive robotics. The code is available at: https://github.com/assistive-autonomy/assistax.
- Abstract(参考訳): 強化学習(RL)アルゴリズムの開発は、大半が野心的な課題タスクとベンチマークによって進められている。
ゲームはRLベンチマークを支配してきた。
GoやAtariといったゲームは多くのブレークスルーをもたらしているが、現実世界の具体化アプリケーションに直接変換しないことが多い。
RLベンチマークの多様化の必要性を認識し、具体的相互作用シナリオで発生する複雑さに対処する上で、補助ロボットタスクに起因する課題に対処するために設計されたオープンソースのベンチマークであるAssistaxを紹介します。
AssistaxはJAXのハードウェアアクセラレーションを使用して、物理ベースのシミュレーションで学ぶための大幅なスピードアップを実現している。
オープンループの壁時計に関しては、AsistaxはCPUベースの代替よりもベクタライジングトレーニングが高速な場合、最大$370\times$を走らせる。
Assistaxは、多エージェントRLを用いた支援ロボットとアクティブなヒト患者の相互作用を概念化し、エンボディされたロボットエージェントのゼロショット調整能力をテストできる多様なパートナーエージェントの集団を訓練する。
一般的な連続制御RLおよびMARLアルゴリズムに対する広範評価とハイパーパラメータチューニングは、信頼性の高いベースラインを提供し、補助ロボットのためのRL研究を進めるための実用的なベンチマークとしてAssistaxを確立する。
コードは、https://github.com/assistive-autonomy/assistax.comで入手できる。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。