論文の概要: Inverse Reinforcement Learning a Control Lyapunov Approach
- arxiv url: http://arxiv.org/abs/2104.04483v1
- Date: Fri, 9 Apr 2021 17:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 13:52:44.401819
- Title: Inverse Reinforcement Learning a Control Lyapunov Approach
- Title(参考訳): 制御リアプノフ法による逆強化学習
- Authors: Samuel Tesfazgi, Armin Lederer and Sandra Hirche
- Abstract要約: 本研究では,IRL推論問題を実演から学習制御Lyapunov関数に再構成する。
提案手法の柔軟性は,連続環境における目標指向運動のデモンストレーションから学ぶことで示される。
- 参考スコア(独自算出の注目度): 8.996358964203298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring the intent of an intelligent agent from demonstrations and
subsequently predicting its behavior, is a critical task in many collaborative
settings. A common approach to solve this problem is the framework of inverse
reinforcement learning (IRL), where the observed agent, e.g., a human
demonstrator, is assumed to behave according to an intrinsic cost function that
reflects its intent and informs its control actions. In this work, we
reformulate the IRL inference problem to learning control Lyapunov functions
(CLF) from demonstrations by exploiting the inverse optimality property, which
states that every CLF is also a meaningful value function. Moreover, the
derived CLF formulation directly guarantees stability of inferred control
policies. We show the flexibility of our proposed method by learning from
goal-directed movement demonstrations in a continuous environment.
- Abstract(参考訳): 知的なエージェントの意図をデモンストレーションから推測し、その後行動を予測することは、多くの協調的な環境で重要なタスクである。
この問題を解決するための一般的なアプローチは逆強化学習(IRL)の枠組みであり、観察されたエージェント、例えば人間のデモレーターは、その意図を反映し制御行動を通知する本質的なコスト関数に従って振る舞うと仮定される。
本研究では,任意のclfが有意値関数であることを示す逆最適性を利用して,実演から学習制御リアプノフ関数(clf)へirl推論問題を再構成する。
さらに、導出されたCLF定式化は、推論制御ポリシーの安定性を直接保証する。
提案手法の柔軟性は,連続環境における目標指向運動のデモンストレーションから学ぶことで示される。
関連論文リスト
- Actively Learning Reinforcement Learning: A Stochastic Optimal Control
Approach [3.7728340443952577]
提案する枠組みは,2つある: (i) 活発な探索と意図的な情報収集を伴う強化学習, (i) ミスマッチのモデル化による状態と不確実性を制御し, (ii) 最適制御の膨大な計算コストを克服する。
我々は、強化学習を用いて最適制御法を達成することにより、両方の目的にアプローチする。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - Discovering Individual Rewards in Collective Behavior through Inverse
Multi-Agent Reinforcement Learning [3.4437947384641032]
政外逆マルチエージェント強化学習アルゴリズム(IMARL)を導入する。
実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。
提案するIMARLアルゴリズムは, 構成成分の観点から, 集合力学を理解するための重要なステップである。
論文 参考訳(メタデータ) (2023-05-17T20:07:30Z) - D-Shape: Demonstration-Shaped Reinforcement Learning via Goal
Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である
本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。
スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文 参考訳(メタデータ) (2022-10-26T02:28:32Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。