論文の概要: Control of Microrobots with Reinforcement Learning under On-Device Compute Constraints
- arxiv url: http://arxiv.org/abs/2512.24740v1
- Date: Wed, 31 Dec 2025 09:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.589809
- Title: Control of Microrobots with Reinforcement Learning under On-Device Compute Constraints
- Title(参考訳): デバイス上でのコンピュータ制約下での強化学習によるマイクロロボットの制御
- Authors: Yichen Liu, Kesava Viswanadha, Zhongyu Li, Nelson Lojo, Kristofer S. J. Pister,
- Abstract要約: 自律型ロボットの重要な機能は、地形上で堅牢な移動を行う能力である。
本稿では,マイクロロボットのローコモーションに対するエッジMLアプローチについて検討し,デバイス上での計算,メモリ,電力制約による低レイテンシ制御を実現する。
- 参考スコア(独自算出の注目度): 5.456154853270863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An important function of autonomous microrobots is the ability to perform robust movement over terrain. This paper explores an edge ML approach to microrobot locomotion, allowing for on-device, lower latency control under compute, memory, and power constraints. This paper explores the locomotion of a sub-centimeter quadrupedal microrobot via reinforcement learning (RL) and deploys the resulting controller on an ultra-small system-on-chip (SoC), SC$μ$M-3C, featuring an ARM Cortex-M0 microcontroller running at 5 MHz. We train a compact FP32 multilayer perceptron (MLP) policy with two hidden layers ($[128, 64]$) in a massively parallel GPU simulation and enhance robustness by utilizing domain randomization over simulation parameters. We then study integer (Int8) quantization (per-tensor and per-feature) to allow for higher inference update rates on our resource-limited hardware, and we connect hardware power budgets to achievable update frequency via a cycles-per-update model for inference on our Cortex-M0. We propose a resource-aware gait scheduling viewpoint: given a device power budget, we can select the gait mode (trot/intermediate/gallop) that maximizes expected RL reward at a corresponding feasible update frequency. Finally, we deploy our MLP policy on a real-world large-scale robot on uneven terrain, qualitatively noting that domain-randomized training can improve out-of-distribution stability. We do not claim real-world large-robot empirical zero-shot transfer in this work.
- Abstract(参考訳): 自律型ロボットの重要な機能は、地形上で堅牢な移動を行う能力である。
本稿では,マイクロロボットのローコモーションに対するエッジMLアプローチについて検討し,デバイス上での計算,メモリ,電力制約による低レイテンシ制御を実現する。
本稿では,RL(Regressed Learning, 強化学習)を介し, ARM Cortex-M0マイクロコントローラを搭載した超小型システム・オン・チップ(SoC, SC$μ$M-3C)の動作について検討する。
大規模並列GPUシミュレーションにおいて,FP32多層パーセプトロン (MLP) ポリシーを2層 ([128, 64]$) で訓練し,シミュレーションパラメータの領域ランダム化を利用して堅牢性を向上する。
次に、整数(Int8)量子化を研究して、リソース制限されたハードウェア上で高い推論更新率を実現するとともに、ハードウェアパワー予算を、Cortex-M0上での推論のためのサイクル毎更新モデルを介して達成可能な更新周波数に接続する。
本稿では,リソースを意識した歩行スケジューリングの視点を提案する。装置の電力予算を考慮すれば,期待されるRL報酬を対応可能な更新頻度で最大化する歩行モード (trot/intermediate/gallop) を選択することができる。
最後に,実世界の大規模ロボットにMDPポリシをデプロイし,ドメインランダムなトレーニングが分散の安定性を向上させることを定性的に警告する。
この研究では、実世界の大型ロボットによる実験的なゼロショット転送は主張していない。
関連論文リスト
- CRoSS: A Continual Robotic Simulation Suite for Scalable Reinforcement Learning with High Task Diversity and Realistic Physics Simulation [46.950823663585425]
継続的な強化学習では、エージェントは以前取得したポリシーを忘れずに一連のタスクから学ぶ必要がある。
本稿では,ガゼボシミュレータで現実的にシミュレーションされたロボットをベースとしたCRLのための新しいベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2026-02-04T18:54:26Z) - Bridging the Sim-to-Real Gap with multipanda ros2: A Real-Time ROS2 Framework for Multimanual Systems [22.26675117934127]
我々はFranka Roboticsロボットのマルチロボット制御のためのオープンソースのROS2アーキテクチャであるmultipanda_ros2$を提示する。
我々のコアコントリビューションは、対話制御やロボット環境モデリングなど、リアルタイムトルク制御における重要な課題に対処する。
論文 参考訳(メタデータ) (2026-02-02T16:11:12Z) - NanoCockpit: Performance-optimized Application Framework for AI-based Autonomous Nanorobotics [50.594459728605734]
小型のフォームファクタ、すなわち10sグラムは、計算資源をSI100ミリワット以下のマイクロコントローラユニット(MCU)に著しく制限する。
本フレームワークは,タスクのシリアライズによるオーバーヘッドをゼロにすることで,クローズドループ制御性能の定量的改善を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:29:38Z) - Accelerating TinyML Inference on Microcontrollers through Approximate Kernels [3.566060656925169]
本研究では、近似計算とソフトウェアカーネル設計を組み合わせることで、マイクロコントローラ上での近似CNNモデルの推定を高速化する。
CIFAR-10データセットでトレーニングされたSTM32-Nucleoボードと2つの人気のあるCNNによる評価は、最先端の正確な推測と比較すると、平均21%のレイテンシ削減が可能であることを示している。
論文 参考訳(メタデータ) (2024-09-25T11:10:33Z) - Training on the Fly: On-device Self-supervised Learning aboard Nano-drones within 20 mW [52.280742520586756]
ナノドローンのような小さな機械学習(TinyML)を利用した小型サイバー物理システム(CPS)は、ますます魅力的な技術になりつつある。
単純な電子回路はこれらのCPSを安価にすることができるが、計算、メモリ、センサーの資源を著しく制限する。
本稿では,ナノドロンの限られた超低消費電力資源にのみ依存する,オンデバイスファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-06T13:11:36Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。