論文の概要: ARC-RL: A Reinforcement Learning Playground Inspired by ARC Raiders
- arxiv url: http://arxiv.org/abs/2605.19503v1
- Date: Tue, 19 May 2026 07:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.195573
- Title: ARC-RL: A Reinforcement Learning Playground Inspired by ARC Raiders
- Title(参考訳): ARC-RL:ARCレイダーに触発された強化学習プレイグラウンド
- Authors: Carlo Romeo, Andrew D. Bagdanov,
- Abstract要約: ARC-RL(ARC-RL)は、ARCレイダーに触発されたロボット形態を特徴とする4つの連続制御環境のスイートである。
4つのロボットは、統一された観察テンプレート、アクションコンベンション、シミュレーションケイデンス、および単一のクローズドフォームマルチコンポーネント報酬関数を共有している。
報酬は、ベロシティ追跡テント、健康的な生存ボーナス、フェーズロックされた歩行順応ボーナス/コストペア、アクションレギュラー、3つのセーフティペナルティ、姿勢アンカーを融合させる。
- 参考スコア(独自算出の注目度): 11.905134977931075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning for legged locomotion has matured into a stack of multi-component reward functions and physics-engine benchmarks whose morphologies are uniformly derived from real commercial hardware. Game NPCs, however, are bound by stylistic constraints absent from sim-to-real robotics and routinely take the form of creatures with no real-robot counterpart. We introduce ARC-RL, a suite of four MuJoCo continuous-control environments featuring robotic morphologies inspired by the bestiary of ARC Raiders: the 18-DoF tall hexapod Queen, the 12-DoF armoured hexapod Bastion, the 18-DoF compact hexapod Tick, and the 12-DoF quadruped Leaper. All four robots share a unified observation template, action convention, simulation cadence, and a single closed-form multi-component reward function whose only per-morphology variation lives in a small set of weights and parameters. The reward fuses a velocity-tracking tent, a healthy survive bonus, a phase-locked gait-compliance bonus/cost pair, action regularisers, three safety penalties, and a posture anchor; no motion-capture data enters the reward at any point. We additionally provide hand-crafted Central Pattern Generator demonstrators per morphology, which serve both as fixed expert references and as sources of prior data for offline-to-online training. On this playground, we conduct a controlled empirical study comparing standard online algorithms (SAC, SPEQ, SOPE-EO) and methods augmented with prior data (SACfD, SPEQ-O2O, SOPE), and characterise how each paradigm copes with the playground's morphological diversity and animation-style stylistic constraints.
- Abstract(参考訳): 脚運動の強化学習は、実際の商用ハードウェアから一様に派生した多成分報酬関数と物理エンジンベンチマークのスタックに成熟した。
しかし、ゲームNPCは、シモンからリアルへのロボット工学が欠如しているスタイル上の制約に縛られ、実際のロボットとは無関係な生物の形を常用している。
ARC-RLは、ARCレイダーの傑作である18-DoFのヘキサポッドクイーン、12-DoFの装甲ヘキサポッド大隊、18-DoFのコンパクトヘキサポッドティック、12-DoFの四足歩行プルーパーにインスパイアされたロボット形態を特徴とする4つのMuJoCo連続制御環境のスイートである。
4つのロボットはいずれも、統一された観察テンプレート、アクションコンベンション、シミュレーションケイデンス、および1つの閉形式の多成分報酬関数を共有している。
報酬は、速度追跡テント、健康的生存ボーナス、位相ロックされた歩行順応ボーナス/コストペア、アクションレギュラー、3つの安全罰、姿勢アンカーを融合させる。
また,手作りのCentral Pattern Generatorデーモンストレータを定型的な専門家参照として,オフライン-オンライントレーニングのための事前データのソースとして提供する。
この遊び場では,標準オンラインアルゴリズム(SAC, SPEQ, SOPE-EO)と事前データ(SACfD, SPEQ-O2O, SOPE)を付加した手法を比較し,各パラダイムが遊技場の形態的多様性やアニメーションスタイルの制約にどのように対処するかを特徴付ける。
関連論文リスト
- Seeing Together: Multi-Robot Cooperative Egocentric Spatial Reasoning with Multimodal Large Language Models [76.29781698910202]
本研究では, きめ細かい協調的空間推論のための枠組みを提案する。
SP-CoRは、動的に認識されるマルチロボットフレームサンプリング、スペクトルおよび物理誘導型ビューフュージョン、および物理に整合した即時蒸留を組み合わせた。
ハビタットでは+3.87%、iGibsonでは+7.12%、微調整ベースラインでは+3.87%である。
論文 参考訳(メタデータ) (2026-05-18T14:04:26Z) - MorFiC: Fixing Value Miscalibration for Zero-Shot Quadruped Transfer [50.54752207285298]
異なる形態を持つ四足歩行ロボット間で学習された移動ポリシーを一般化することは、依然として課題である。
単一共有ポリシを用いたゼロショットクロスモルフォロジーロコモーションのための強化学習手法であるMorFiCを提案する。
また,MorFiCは,形態素間の値予測誤差の分散を低減し,有利な推定値を安定化することを示した。
論文 参考訳(メタデータ) (2026-03-15T19:03:34Z) - Impedance Matching: Enabling an RL-Based Running Jump in a Quadruped Robot [7.516046071926082]
シミュレーションロボットと現実ロボットのギャップを軽減するための新しい枠組みを提案する。
本フレームワークはパラメータ選択のための構造化ガイドラインとシミュレーションにおける動的ランダム化の範囲を提供する。
結果は、我々の知る限り、実四足歩行ロボットにおいて、RLベースの制御ポリシーによって実証された最も高く、最も長いジャンプの1つです。
論文 参考訳(メタデータ) (2024-04-23T14:52:09Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse
Quadruped Robots [4.557963624437784]
動物運動制御からインスピレーションを得ることにより、四足歩行ロボットの1つの移動方針を効果的に訓練できることを示す。
我々の方針は脊髄の中央パターン生成器(CPG)の表現を調節する。
我々は,A1ロボットの名目質量の125%に相当する15kgの負荷を付加しても,頑健な性能を観察する。
論文 参考訳(メタデータ) (2023-10-16T15:06:16Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。