論文の概要: Robotic Table Tennis with Model-Free Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.14398v2
- Date: Wed, 27 May 2020 20:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:29:14.699539
- Title: Robotic Table Tennis with Model-Free Reinforcement Learning
- Title(参考訳): モデルフリー強化学習によるロボットテーブルテニス
- Authors: Wenbo Gao and Laura Graesser and Krzysztof Choromanski and Xingyou
Song and Nevena Lazic and Pannag Sanketi and Vikas Sindhwani and Navdeep
Jaitly
- Abstract要約: 本稿では,100Hzの速度でロボット関節を制御することで,卓球を返却できる効率的なポリシーを学習するためのモデルフリーアルゴリズムを提案する。
進化的探索(ES)法は,非視覚的入力のためのCNNベースのポリシーアーキテクチャに作用し,時を経るにつれてスムーズな動作につながるコンパクトコントローラを学習することを示した。
- 参考スコア(独自算出の注目度): 25.991677916410307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a model-free algorithm for learning efficient policies capable of
returning table tennis balls by controlling robot joints at a rate of 100Hz. We
demonstrate that evolutionary search (ES) methods acting on CNN-based policy
architectures for non-visual inputs and convolving across time learn compact
controllers leading to smooth motions. Furthermore, we show that with
appropriately tuned curriculum learning on the task and rewards, policies are
capable of developing multi-modal styles, specifically forehand and backhand
stroke, whilst achieving 80\% return rate on a wide range of ball throws. We
observe that multi-modality does not require any architectural priors, such as
multi-head architectures or hierarchical policies.
- Abstract(参考訳): 本稿では,100Hzの速度でロボット関節を制御することで,卓球を返却できる効率的なポリシーを学習するためのモデルフリーアルゴリズムを提案する。
我々は,非視覚入力のためのcnnベースのポリシーアーキテクチャに作用する進化的探索(es)手法が,スムースな動作につながるコンパクトなコントローラを学習することを示す。
さらに,課題や報酬を適切に調整したカリキュラム学習を行うことで,多モードスタイル,特に前手やバックハンドストロークを発達させ,幅広い球球投球において80-%のリターン率を達成できることを示す。
マルチモダリティは、マルチヘッドアーキテクチャや階層的なポリシーなど、アーキテクチャの先行を一切必要としない。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - HyperPPO: A scalable method for finding small policies for robotic
control [14.789594427174052]
HyperPPOは、複数のニューラルネットワークの重みを同時に推定する、政治上の強化学習アルゴリズムである。
提案手法は,高パフォーマンスなポリシーを符号化していない一般用ネットワークよりもはるかに小さいネットワークの重みを推定する。
我々は、HyperPPOが見積もる神経政策が、Crazyflie2.1のクアドローターを分散制御できることを示した。
論文 参考訳(メタデータ) (2023-09-28T17:58:26Z) - Efficiently Learning Small Policies for Locomotion and Manipulation [12.340412143459869]
グラフハイパーネットワークを活用して、非政治強化学習で訓練されたグラフハイパーポリシーを学習する。
本手法は,任意の非政治強化学習アルゴリズムに付加可能であることを示す。
パラメータ数に対する制約を考慮し,最適なアーキテクチャを選択する方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T23:49:00Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous
Demonstration [1.2891210250935146]
実証から学ぶ(LfD)アプローチは、エンドユーザに望ましい振る舞いのデモンストレーションを通じて、ロボットに新しいタスクを教えることを促す。
本稿では,異種間における共通知識を抽出する動的マルチストラテジー・リワード蒸留法(DMSRD)を提案する。
当社のパーソナライズ、フェデレーション、生涯にわたるLfDアーキテクチャは、2つの継続的制御問題におけるベンチマークを上回り、ポリシーリターンは平均77%、ログリターンは42%改善しています。
論文 参考訳(メタデータ) (2022-02-14T20:10:25Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning a Decentralized Multi-arm Motion Planner [15.418884994244996]
チームサイズでスケーラブルでフレキシブルなクローズドループマルチアームモーションプランナを提示する。
分散されたポリシーは、マルチアームシステム内の1つのロボットアームを制御するために訓練され、ターゲットのエンドエフェクターのポーズに到達する。
結果として得られるポリシはサブラインでスケールし、チームサイズが可変なマルチアームシステムにデプロイできる。
論文 参考訳(メタデータ) (2020-11-05T01:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。