Fugu-MT 論文翻訳(概要): Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics

論文の概要: Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics

arxiv url: http://arxiv.org/abs/2507.21638v1
Date: Tue, 29 Jul 2025 09:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 17:08:55.968968
Title: Assistax: A Hardware-Accelerated Reinforcement Learning Benchmark for Assistive Robotics
Title（参考訳）: Assistax:Assistive Roboticsのためのハードウェアアクセラレーション強化学習ベンチマーク
Authors: Leonard Hinckeldey, Elliot Fosong, Elle Miller, Rimvydas Rubavicius, Trevor McInroe, Patricia Wollstadt, Christiane B. Wiebel-Herboth, Subramanian Ramamoorthy, Stefano V. Albrecht,
Abstract要約: ゲームは、関連する課題を提示し、実行しやすく、理解しやすいため、強化学習ベンチマークを支配しています。 Assistaxは、支援ロボットタスクに起因する課題に対処するために設計されたオープンソースのベンチマークである。オープンループのウォールタイムに関しては、AsistaxはCPUベースの代替よりもベクタライジングトレーニングの実行が速い場合、最大370タイムで動作します。
参考スコア（独自算出の注目度）: 18.70896736010314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of reinforcement learning (RL) algorithms has been largely driven by ambitious challenge tasks and benchmarks. Games have dominated RL benchmarks because they present relevant challenges, are inexpensive to run and easy to understand. While games such as Go and Atari have led to many breakthroughs, they often do not directly translate to real-world embodied applications. In recognising the need to diversify RL benchmarks and addressing complexities that arise in embodied interaction scenarios, we introduce Assistax: an open-source benchmark designed to address challenges arising in assistive robotics tasks. Assistax uses JAX's hardware acceleration for significant speed-ups for learning in physics-based simulations. In terms of open-loop wall-clock time, Assistax runs up to $370\times$ faster when vectorising training runs compared to CPU-based alternatives. Assistax conceptualises the interaction between an assistive robot and an active human patient using multi-agent RL to train a population of diverse partner agents against which an embodied robotic agent's zero-shot coordination capabilities can be tested. Extensive evaluation and hyperparameter tuning for popular continuous control RL and MARL algorithms provide reliable baselines and establish Assistax as a practical benchmark for advancing RL research for assistive robotics. The code is available at: https://github.com/assistive-autonomy/assistax.
Abstract（参考訳）: 強化学習(RL)アルゴリズムの開発は、大半が野心的な課題タスクとベンチマークによって進められている。ゲームはRLベンチマークを支配してきた。 GoやAtariといったゲームは多くのブレークスルーをもたらしているが、現実世界の具体化アプリケーションに直接変換しないことが多い。 RLベンチマークの多様化の必要性を認識し、具体的相互作用シナリオで発生する複雑さに対処する上で、補助ロボットタスクに起因する課題に対処するために設計されたオープンソースのベンチマークであるAssistaxを紹介します。 AssistaxはJAXのハードウェアアクセラレーションを使用して、物理ベースのシミュレーションで学ぶための大幅なスピードアップを実現している。オープンループの壁時計に関しては、AsistaxはCPUベースの代替よりもベクタライジングトレーニングが高速な場合、最大$370\times$を走らせる。 Assistaxは、多エージェントRLを用いた支援ロボットとアクティブなヒト患者の相互作用を概念化し、エンボディされたロボットエージェントのゼロショット調整能力をテストできる多様なパートナーエージェントの集団を訓練する。一般的な連続制御RLおよびMARLアルゴリズムに対する広範評価とハイパーパラメータチューニングは、信頼性の高いベースラインを提供し、補助ロボットのためのRL研究を進めるための実用的なベンチマークとしてAssistaxを確立する。コードは、https://github.com/assistive-autonomy/assistax.comで入手できる。

関連論文リスト

The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements [87.61432174951891]
科学的進歩への重要な能力は、既存の作品を再現する能力である。アクティブな研究領域においてAIエージェントが結果を再現する能力を評価するために,自動LLM高速化ベンチマークを導入する。最近のLSMとSoTAの足場を組み合わせると、ベンチマークですでに知られているイノベーションを再実装するのに苦労していることが分かりました。
論文参考訳（メタデータ） (2025-06-27T17:44:32Z)
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control [49.08235196039602]
FastTD3は強化学習(RL)アルゴリズムで、1つのA100 GPU上で3時間以内のHumanoidBenchタスクを解く。我々はまた、ロボット工学におけるRL研究を加速するために、FastTD3の軽量で使いやすい実装を提供する。
論文参考訳（メタデータ） (2025-05-28T17:55:26Z)
CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing [5.467140383171385]
本研究では, 可変インピーダンスを有するロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的検討を行った。ハードウェア上では、CHEQは効果的な研磨動作を実現し、8時間のトレーニングを必要とせず、5回の障害しか発生しない。その結果、ハードウェア上で直接訓練された実世界のコンタクトリッチなタスクに対して、適応型ハイブリッドRLの可能性を浮き彫りにした。
論文参考訳（メタデータ） (2025-01-14T10:13:41Z)
Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文参考訳（メタデータ） (2024-01-30T10:48:43Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文参考訳（メタデータ） (2023-09-13T13:18:29Z)
Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration [16.681164058779146]
本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
論文参考訳（メタデータ） (2023-01-09T14:53:38Z)
Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning [73.92475751508452]
Bimanual Dexterous Hands Benchmark (Bi-DexHands) は、数十のバイマニュアル操作タスクと数千のターゲットオブジェクトを備えた2つのデキスタラスハンドを含むシミュレータである。 Bi-DexHandsのタスクは、認知科学の文献によると、人間の運動能力のレベルが異なるように設計されている。
論文参考訳（メタデータ） (2022-06-17T11:09:06Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。