論文の概要: AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models
- arxiv url: http://arxiv.org/abs/2409.08904v1
- Date: Fri, 13 Sep 2024 15:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:09:45.256420
- Title: AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models
- Title(参考訳): AnyBipe: 大規模言語モデルでガイドされた二足歩行ロボットの訓練と展開のためのエンドツーエンドフレームワーク
- Authors: Yifei Yao, Wentao He, Chenyu Gu, Jiaheng Du, Fuwei Tan, Zhen Zhu, Junguo Lu,
- Abstract要約: 本稿では,ロボットの強化学習ポリシーをトレーニングし,展開するためのエンドツーエンドフレームワークを提案する。
このフレームワークは、3つの相互接続モジュールからなる: LLM誘導報酬関数設計モジュール、先行作業を活用するRLトレーニングモジュール、およびsim-to-real同型評価モジュール。
本稿では,これらのモジュールの構築,従来のアプローチに対するアドバンテージを詳述するとともに,二足歩行ロボットの制御戦略を自律的に開発・洗練するフレームワークの能力を実証する。
- 参考スコア(独自算出の注目度): 6.637952061378054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training and deploying reinforcement learning (RL) policies for robots, especially in accomplishing specific tasks, presents substantial challenges. Recent advancements have explored diverse reward function designs, training techniques, simulation-to-reality (sim-to-real) transfers, and performance analysis methodologies, yet these still require significant human intervention. This paper introduces an end-to-end framework for training and deploying RL policies, guided by Large Language Models (LLMs), and evaluates its effectiveness on bipedal robots. The framework consists of three interconnected modules: an LLM-guided reward function design module, an RL training module leveraging prior work, and a sim-to-real homomorphic evaluation module. This design significantly reduces the need for human input by utilizing only essential simulation and deployment platforms, with the option to incorporate human-engineered strategies and historical data. We detail the construction of these modules, their advantages over traditional approaches, and demonstrate the framework's capability to autonomously develop and refine controlling strategies for bipedal robot locomotion, showcasing its potential to operate independently of human intervention.
- Abstract(参考訳): ロボットのための強化学習(RL)ポリシーの訓練と展開は、特に特定のタスクを達成する上で、重大な課題を提示している。
近年の進歩は、多様な報酬関数の設計、トレーニング技術、シミュレーション・トゥ・リアル(シミュレート・トゥ・リアル)トランスファー、パフォーマンス分析手法を探求してきたが、それでもかなりの人的介入が必要である。
本稿では,LLM(Large Language Models)によるRLポリシーのトレーニングとデプロイのためのエンドツーエンドフレームワークを提案する。
このフレームワークは、3つの相互接続モジュールからなる: LLM誘導報酬関数設計モジュール、先行作業を活用するRLトレーニングモジュール、およびsim-to-real同型評価モジュール。
この設計は、人間工学的戦略と歴史的データを組み込むオプションとして、本質的なシミュレーションと展開プラットフォームのみを活用することで、人間の入力の必要性を大幅に低減する。
本稿では、これらのモジュールの構築、従来のアプローチよりも有利な点について詳述し、二足歩行ロボットの制御戦略を自律的に開発・洗練するフレームワークの能力を実証し、人間の介入とは無関係に運用する可能性を示す。
関連論文リスト
- Solving Multi-Goal Robotic Tasks with Decision Transformer [0.0]
ロボット工学におけるオフラインマルチゴール強化学習のための決定変換器アーキテクチャの新しい適応法を提案する。
われわれのアプローチでは、ゴール固有の情報を意思決定変換器に統合し、オフライン環境で複雑なタスクを処理できる。
論文 参考訳(メタデータ) (2024-10-08T20:35:30Z) - Modular Neural Network Policies for Learning In-Flight Object Catching
with a Robot Hand-Arm System [55.94648383147838]
本稿では,ロボットハンドアームシステムによる飛行物体の捕獲方法の学習を可能にするモジュラーフレームワークを提案する。
本フレームワークは,物体の軌跡予測を学習するオブジェクト状態推定器,(ii)捕捉対象のポーズのスコアとランク付けを学ぶキャッチポーズ品質ネットワーク,(iii)ロボットハンドをキャッチ前ポーズに移動させるように訓練されたリーチ制御ポリシ,(iv)ソフトキャッチ動作を行うように訓練された把握制御ポリシの5つのコアモジュールから構成される。
各モジュールと統合システムのシミュレーションにおいて、我々のフレームワークを広範囲に評価し、飛行における高い成功率を示す。
論文 参考訳(メタデータ) (2023-12-21T16:20:12Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors [3.4376560669160385]
現実の世界では、ロボットはモーターの故障から岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇するかもしれない。
FAMLEにより、ロボットはベースラインよりもはるかに少ない時間で、新たな損傷に適応できることを示す。
論文 参考訳(メタデータ) (2020-03-10T12:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。