論文の概要: Interactive Dynamic Walking: Learning Gait Switching Policies with
Generalization Guarantees
- arxiv url: http://arxiv.org/abs/2109.13417v1
- Date: Tue, 28 Sep 2021 01:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:32:47.056494
- Title: Interactive Dynamic Walking: Learning Gait Switching Policies with
Generalization Guarantees
- Title(参考訳): 対話型動的歩行:一般化保証による歩行切り替えポリシーの学習
- Authors: Prem Chand, Sushant Veer, Ioannis Poulakakis
- Abstract要約: 歩行二足歩行ロボットを、身体的相互作用を必要とするタスクに携わりながら、先導的な同僚に従うことの問題点を考察する。
当社のアプローチは, 監督官が管理する, ダイナミック・ムーブメント・プリミティブの家族間の切り替えに依存している。
目的の軌道が明確でない先進的協調者に動的に歩行する二足歩行の歩行を適応させるために,ニューラルネットワークスーパーバイザーを訓練することにより,我々のアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 8.554761233491236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of adapting a dynamically walking
bipedal robot to follow a leading co-worker while engaging in tasks that
require physical interaction. Our approach relies on switching among a family
of Dynamic Movement Primitives (DMPs) as governed by a supervisor. We train the
supervisor to orchestrate the switching among the DMPs in order to adapt to the
leader's intentions, which are only implicitly available in the form of
interaction forces. The primary contribution of our approach is its ability to
furnish certificates of generalization to novel leader intentions for the
trained supervisor. This is achieved by leveraging the Probably Approximately
Correct (PAC)-Bayes bounds from generalization theory. We demonstrate the
efficacy of our approach by training a neural-network supervisor to adapt the
gait of a dynamically walking biped to a leading collaborator whose intended
trajectory is not known explicitly.
- Abstract(参考訳): 本稿では,動的な歩行2足歩行ロボットを,身体的インタラクションを必要とする作業に従事しながら指導的同僚に追従する問題を考える。
我々のアプローチは、監督官が管理するDMP(Dynamic Movement Primitives)の家族間の切り替えに依存している。
我々は、指導者の意図に適応するためにdmp間の切り替えをオーケストレーションするために監督者を訓練し、それは相互作用力の形でのみ暗黙的に利用可能である。
我々のアプローチの主な貢献は、訓練された監督者に新しいリーダーの意図に一般化の証明書を提供する能力である。
これは一般化理論から確率近似(PAC)-ベイズ境界を利用することによって達成される。
目的の軌道が明確でない先進的協調者に動的に歩行する二足歩行の歩行を適応させるために,ニューラルネットワークスーパーバイザーを訓練することにより,我々のアプローチの有効性を実証する。
関連論文リスト
- Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z) - Adapt On-the-Go: Behavior Modulation for Single-Life Robot Deployment [92.48012013825988]
展開中のシナリオにオンザフライで適応する問題について検討する。
ROAM(RObust Autonomous Modulation)は,事前学習した行動の知覚値に基づくメカニズムを提案する。
ROAMによりロボットはシミュレーションと実Go1の四足歩行の両方の動的変化に迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-11-02T08:22:28Z) - Human-AI Shared Control via Frequency-based Policy Dissection [34.0399894373716]
人間-AI共有制御は、複雑な環境で制御タスクを達成するために、人間がAIと対話し、協力することを可能にする。
従来の強化学習(RL)手法は、人間の制御可能なポリシーを達成するために目標条件付き設計を試みる。
我々は、学習したニューラルコントローラの中間表現とエージェント動作の運動特性を整合させる、TextitPolicy Dissectionと呼ばれるシンプルで効果的な周波数ベースのアプローチを開発した。
論文 参考訳(メタデータ) (2022-05-31T23:57:55Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - A GAN-Like Approach for Physics-Based Imitation Learning and Interactive
Character Control [2.2082422928825136]
物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。
本研究は,GAN(Generative Adversarial Network)と強化学習に基づく。
我々は,本手法の適用性を,模倣と対話的な制御タスクの範囲で強調する。
論文 参考訳(メタデータ) (2021-05-21T00:03:29Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Reinforcement Learning with Iterative Reasoning for Merging in Dense
Traffic [41.46201285202203]
密集した交通量を減らすことは、自動運転車にとって難しい課題だ。
本稿では,強化学習とゲーム理論を組み合わせて,融合行動の学習を行う。
論文 参考訳(メタデータ) (2020-05-25T02:57:19Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。