論文の概要: Learning of Parameters in Behavior Trees for Movement Skills
- arxiv url: http://arxiv.org/abs/2109.13050v1
- Date: Mon, 27 Sep 2021 13:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 21:59:34.822740
- Title: Learning of Parameters in Behavior Trees for Movement Skills
- Title(参考訳): 運動スキルの行動木におけるパラメータの学習
- Authors: Matthias Mayr, Konstantinos Chatzilygeroudis, Faseeh Ahmad, Luigi
Nardi and Volker Krueger
- Abstract要約: 振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.9562145896371784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) is a powerful mathematical framework that allows
robots to learn complex skills by trial-and-error. Despite numerous successes
in many applications, RL algorithms still require thousands of trials to
converge to high-performing policies, can produce dangerous behaviors while
learning, and the optimized policies (usually modeled as neural networks) give
almost zero explanation when they fail to perform the task. For these reasons,
the adoption of RL in industrial settings is not common. Behavior Trees (BTs),
on the other hand, can provide a policy representation that a) supports modular
and composable skills, b) allows for easy interpretation of the robot actions,
and c) provides an advantageous low-dimensional parameter space. In this paper,
we present a novel algorithm that can learn the parameters of a BT policy in
simulation and then generalize to the physical robot without any additional
training. We leverage a physical simulator with a digital twin of our
workstation, and optimize the relevant parameters with a black-box optimizer.
We showcase the efficacy of our method with a 7-DOF KUKA-iiwa manipulator in a
task that includes obstacle avoidance and a contact-rich insertion
(peg-in-hole), in which our method outperforms the baselines.
- Abstract(参考訳): 強化学習(rl)は、ロボットが試行錯誤によって複雑なスキルを学習できる強力な数学的フレームワークである。
多くのアプリケーションで成功しているにもかかわらず、RLアルゴリズムはハイパフォーマンスなポリシーに収束するために数千の試行が必要であり、学習中に危険な振る舞いを生じさせ、最適化されたポリシー(通常はニューラルネットワークとしてモデル化される)は、タスクの実行に失敗したときにほぼゼロの説明を与える。
これらの理由から、工業環境におけるRLの採用は一般的ではない。
一方、行動木(BT)は、ポリシー表現を提供することができる。
a) モジュラーで構成可能なスキルをサポートする
ロ ロボットの動作を簡単に解釈することができること、及び
c) 有利な低次元パラメータ空間を提供する。
本稿では,シミュレーションにおいてbtポリシーのパラメータを学習し,追加のトレーニングをすることなく物理ロボットに一般化できる新しいアルゴリズムを提案する。
我々は,ワークステーションのデジタルツインを用いた物理シミュレータを活用し,ブラックボックスオプティマイザを用いて関連するパラメータを最適化する。
障害物回避と接触量の多い挿入(ペグ・イン・ホール)を含むタスクにおいて,本手法の有効性を7-DOFのKUKA-Iiwaマニピュレータで示す。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Meta-Reinforcement Learning for Robotic Industrial Insertion Tasks [70.56451186797436]
本研究では,メタ強化学習を用いてシミュレーションの課題の大部分を解決する方法について検討する。
エージェントを訓練して現実の挿入タスクを成功させる手法を実証する。
論文 参考訳(メタデータ) (2020-04-29T18:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。