論文の概要: Signal Temporal Logic-Guided Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2311.05084v1
- Date: Thu, 9 Nov 2023 00:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:34:01.500580
- Title: Signal Temporal Logic-Guided Apprenticeship Learning
- Title(参考訳): 信号時相論理誘導型認証学習
- Authors: Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis
- Abstract要約: 本稿では,高レベルタスクの目的を記述した時間論理仕様をグラフにエンコードして,時間的基準を定義する方法を示す。
制御ポリシの学習に必要な実演回数を大幅に改善することで,従来の文献の欠点を克服する方法について述べる。
- 参考スコア(独自算出の注目度): 6.8500997328311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apprenticeship learning crucially depends on effectively learning rewards,
and hence control policies from user demonstrations. Of particular difficulty
is the setting where the desired task consists of a number of sub-goals with
temporal dependencies. The quality of inferred rewards and hence policies are
typically limited by the quality of demonstrations, and poor inference of these
can lead to undesirable outcomes. In this letter, we show how temporal logic
specifications that describe high level task objectives, are encoded in a graph
to define a temporal-based metric that reasons about behaviors of demonstrators
and the learner agent to improve the quality of inferred rewards and policies.
Through experiments on a diverse set of robot manipulator simulations, we show
how our framework overcomes the drawbacks of prior literature by drastically
improving the number of demonstrations required to learn a control policy.
- Abstract(参考訳): 応募資格の学習は、効果的に報酬を学習することに依存しており、それによってユーザのデモンストレーションからポリシーを制御する。
特に難しいのは、望ましいタスクが時間依存の多くのサブゴールで構成される設定である。
予想される報酬の質とそれゆえ政策は、通常、デモの質によって制限され、これらの推測の不十分さは望ましくない結果につながる可能性がある。
本稿では,高レベルな課題目標を記述した時間論理仕様をグラフにエンコードして,実証者や学習者エージェントの行動に起因した時間的基準を定義し,評価された報酬やポリシーの質を向上させる方法を示す。
ロボットマニピュレータの多種多様なシミュレーション実験を通じて,制御方針の学習に必要なデモ数を大幅に改善し,先行文献の欠点を克服する手法を示す。
関連論文リスト
- Foundation Policies with Hilbert Representations [61.19488199476655]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - CRISP: Curriculum inducing Primitive Informed Subgoal Prediction [30.533883667629887]
低レベルのプリミティブを進化させるために,達成可能なサブゴールのカリキュラムを生成するための新しい階層型アルゴリズムCRISPを提案する。
私たちのアプローチでは、いくつかの専門家によるデモンストレーションが使用されているので、ほとんどのロボット制御タスクに適しています。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z) - Chain-of-Thought Predictive Control [27.115967506563603]
我々は、複雑な低レベル制御タスクの実証から、一般化可能なポリシー学習について研究する。
本稿では,時間的抽象化の概念と階層的RLからの計画能力を取り入れた模倣学習手法を提案する。
提案手法であるChain-of-Thought Predictive Control (CoTPC) は,スケーラブルかつ高度に最適化されたデモから,低レベルの操作タスクに挑戦する上で,既存のものよりも優れています。
論文 参考訳(メタデータ) (2023-04-03T07:59:13Z) - Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from
Demonstrations [15.762916270583698]
実演法(LfD)から学ぶことで,多段階課題の解決が期待できる。
本研究では,このような課題のルーツを,実証において暗黙的な個別計画を満たすための学習された継続的政策の失敗とみなす。
我々は,線形時間論理(LTL)式で規定される任意の離散計画について,学習された連続ポリシーがシミュレート可能であることを証明した。
論文 参考訳(メタデータ) (2022-06-09T17:25:22Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Learning from Demonstrations using Signal Temporal Logic [1.2182193687133713]
効果的なロボット制御ポリシーを得るための新しいパラダイムである。
我々はSignal Temporal Logicを使ってデモの質を評価しランク付けする。
提案手法は,最先端の最大因果エントロピー逆強化学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T18:28:36Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。