論文の概要: STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion
- arxiv url: http://arxiv.org/abs/2502.04692v3
- Date: Wed, 12 Feb 2025 01:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:45:00.693869
- Title: STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion
- Title(参考訳): STRIDE:ヒューマノイドロボットロコモーションにおけるリワードデザイン、深層強化学習訓練、フィードバック最適化の自動化
- Authors: Zhenwei Wu, Jinxiong Lu, Yuxiao Chen, Yunxin Liu, Yueting Zhuang, Luhui Hu,
- Abstract要約: 我々は,人型ロボットの移動作業に対する報酬設計,DRLトレーニング,フィードバック最適化を自動化するために,エージェント工学に基づく新しいフレームワークSTRIDEを紹介する。
エージェントエンジニアリングの構造化された原則と、コード記述、ゼロショット生成、コンテキスト内最適化のための大きな言語モデル(LLM)を組み合わせることで、STRIDEはタスク固有のプロンプトやテンプレートに頼ることなく報酬関数を生成し、評価し、反復的に洗練する。
ヒューマノイドロボットの形態を特徴とする多様な環境において、STRIDEは最先端の報酬設計フレームワークであるEUREKAよりも優れており、ラウンド250%の平均的な改善を実現している。
- 参考スコア(独自算出の注目度): 33.91518509518502
- License:
- Abstract: Humanoid robotics presents significant challenges in artificial intelligence, requiring precise coordination and control of high-degree-of-freedom systems. Designing effective reward functions for deep reinforcement learning (DRL) in this domain remains a critical bottleneck, demanding extensive manual effort, domain expertise, and iterative refinement. To overcome these challenges, we introduce STRIDE, a novel framework built on agentic engineering to automate reward design, DRL training, and feedback optimization for humanoid robot locomotion tasks. By combining the structured principles of agentic engineering with large language models (LLMs) for code-writing, zero-shot generation, and in-context optimization, STRIDE generates, evaluates, and iteratively refines reward functions without relying on task-specific prompts or templates. Across diverse environments featuring humanoid robot morphologies, STRIDE outperforms the state-of-the-art reward design framework EUREKA, achieving an average improvement of round 250% in efficiency and task performance. Using STRIDE-generated rewards, simulated humanoid robots achieve sprint-level locomotion across complex terrains, highlighting its ability to advance DRL workflows and humanoid robotics research.
- Abstract(参考訳): ヒューマノイドロボットは人工知能において重要な課題を示し、高度自由度システムの正確な調整と制御を必要とする。
この領域で、深い強化学習(DRL)のための効果的な報酬関数を設計することは、広範囲な手作業、ドメインの専門知識、反復的な改善を必要とする重要なボトルネックである。
これらの課題を克服するために、エージェント工学に基づく新しいフレームワークSTRIDEを導入し、報酬設計、DRLトレーニング、ヒューマノイドロボットの移動タスクに対するフィードバック最適化を自動化した。
エージェントエンジニアリングの構造化された原則と、コード記述、ゼロショット生成、コンテキスト内最適化のための大きな言語モデル(LLM)を組み合わせることで、STRIDEはタスク固有のプロンプトやテンプレートに頼ることなく報酬関数を生成し、評価し、反復的に洗練する。
ヒューマノイドロボットの形態を特徴とする多様な環境において、STRIDEは最先端の報酬設計フレームワークであるEUREKAよりも優れており、効率とタスクパフォーマンスの250%の平均的な改善を実現している。
STRIDEの生成した報酬を使って、シミュレーションされたヒューマノイドロボットは複雑な地形を横断するスプリントレベルの移動を実現し、DRLワークフローとヒューマノイドロボットの研究を前進させる能力を強調している。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Structural Optimization of Lightweight Bipedal Robot via SERL [6.761861053481078]
本稿では,移動課題の強化学習と進化アルゴリズムを組み合わせたSERL(Structure Evolution Reinforcement Learning)アルゴリズムを提案する。
We designed a bipedal robot called Wow Orin, where the optimal leg length are obtained through optimization based on body structure and motor Turk。
論文 参考訳(メタデータ) (2024-08-28T08:34:05Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - I-CTRL: Imitation to Control Humanoid Robots Through Constrained Reinforcement Learning [8.97654258232601]
有界残留強化学習(I-CTRL)によるヒューマノイドロボットの制御フレームワークの開発
I-CTRLは5つのロボットにまたがるシンプルでユニークな報酬で、動きの模倣に優れています。
本フレームワークでは,大規模動作データセットを管理するための自動優先度スケジューラを導入している。
論文 参考訳(メタデータ) (2024-05-14T16:12:27Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - GLSO: Grammar-guided Latent Space Optimization for Sample-efficient
Robot Design Automation [16.96128900256427]
設計自動化を低次元連続最適化問題に変換するフレームワークであるGrammar-Guided Latent Space Optimization (GLSO)を提案する。
本研究では,グラフ構造設計空間と連続潜在空間とのマッピングを学習するために,グラフ変分オートエンコーダ(VAE)を訓練することにより,設計自動化を低次元連続最適化問題に変換するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T17:48:24Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Bioinspired Bipedal Locomotion Control for Humanoid Robotics Based on
EACO [1.0152838128195467]
本研究は,ヒューマノイドロボットに適用されたEACOのグローバル検索能力と収束率を,リアルタイムに向上させるものである。
我々は、ACO、実コードGA、ニューラルネットワーク(NN)付きGA、パーティクルスウォーム最適化(PSO)、複雑なロボティクスシステムなど、幅広い問題に対するEACOアルゴリズムに特別な焦点をあてた。
論文 参考訳(メタデータ) (2020-10-09T09:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。