論文の概要: RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards
- arxiv url: http://arxiv.org/abs/2407.11562v1
- Date: Tue, 16 Jul 2024 10:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:42:36.516478
- Title: RobotKeyframing: Learning Locomotion with High-Level Objectives via Mixture of Dense and Sparse Rewards
- Title(参考訳): RobotKeyframing:DenseとSparse Rewardsを併用した高レベルオブジェクトによるロコモーション学習
- Authors: Fatemeh Zargarbashi, Jin Cheng, Dongho Kang, Robert Sumner, Stelian Coros,
- Abstract要約: 本稿では,脚ロボットのための新しい学習ベース制御フレームワークを提案する。
脚のあるロボットの自然な移動における高レベルな目標を取り入れている。
マルチクリティック強化学習アルゴリズムを用いて、密集した報酬とスパース報酬の混合を処理する。
- 参考スコア(独自算出の注目度): 15.79235618199162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel learning-based control framework that uses keyframing to incorporate high-level objectives in natural locomotion for legged robots. These high-level objectives are specified as a variable number of partial or complete pose targets that are spaced arbitrarily in time. Our proposed framework utilizes a multi-critic reinforcement learning algorithm to effectively handle the mixture of dense and sparse rewards. Additionally, it employs a transformer-based encoder to accommodate a variable number of input targets, each associated with specific time-to-arrivals. Throughout simulation and hardware experiments, we demonstrate that our framework can effectively satisfy the target keyframe sequence at the required times. In the experiments, the multi-critic method significantly reduces the effort of hyperparameter tuning compared to the standard single-critic alternative. Moreover, the proposed transformer-based architecture enables robots to anticipate future goals, which results in quantitative improvements in their ability to reach their targets.
- Abstract(参考訳): 本稿では,手足ロボットの自然な移動にキーフレーミングを用いて高次目標を組み込む新しい学習ベース制御フレームワークを提案する。
これらの高レベルな目的は、任意に時間内に空間化された部分的または完全なポーズターゲットの可変数として指定される。
提案手法は,高密度およびスパース報酬の混合を効果的に処理するために,多項強化学習アルゴリズムを利用する。
さらに、トランスフォーマーベースのエンコーダを使用して、入力ターゲットの可変数に対応し、それぞれが特定の時間から到着時間に関連付けられている。
シミュレーションとハードウェア実験を通じて,本フレームワークが要求されたタイミングでターゲットキーフレームシーケンスを効果的に満足できることを実証した。
実験では、マルチクリティック法は標準の単一クリティック法と比較してハイパーパラメータチューニングの労力を大幅に削減する。
さらに,トランスフォーマーをベースとしたアーキテクチャにより,ロボットは将来の目標を予測でき,目標達成能力の定量的改善が期待できる。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文 参考訳(メタデータ) (2022-06-24T08:24:42Z) - Graph-based Reinforcement Learning meets Mixed Integer Programs: An
application to 3D robot assembly discovery [34.25379651790627]
我々は、テトリスのような構造ブロックとロボットマニピュレータを用いて、スクラッチから完全に定義済みの任意のターゲット構造を構築するという課題に対処する。
我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。
論文 参考訳(メタデータ) (2022-03-08T14:44:51Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z) - Learning from Sparse Demonstrations [17.24236148404065]
本稿では,ロボットが対象関数を学習できる連続ポントリャーギン微分可能計画法(Continuous PDP)を開発した。
本手法は,ロボットの軌道を逐次追従する目的関数と時間ワープ関数を最小の差分損失で検出する。
本手法はまず,シミュレーションロボットアームを用いて評価し,次に6-DoF四重極子に適用し,非モデル化環境における動作計画の目的関数を学習する。
論文 参考訳(メタデータ) (2020-08-05T14:25:39Z) - Real-Time Object Detection and Recognition on Low-Compute Humanoid
Robots using Deep Learning [0.12599533416395764]
本稿では、複数の低計算NAOロボットがカメラビューにおける物体のリアルタイム検出、認識、位置決めを行うことを可能にする新しいアーキテクチャについて述べる。
オブジェクト検出と局所化のためのアルゴリズムは,複数のシナリオにおける屋内実験に基づくYOLOv3の実証的な修正である。
このアーキテクチャは、カメラフィードからニューラルネットにリアルタイムフレームを供給し、その結果を使ってロボットを誘導する効果的なエンドツーエンドパイプラインも備えている。
論文 参考訳(メタデータ) (2020-01-20T05:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。