論文の概要: Signal Temporal Logic-Guided Apprenticeship Learning
- arxiv url: http://arxiv.org/abs/2311.05084v1
- Date: Thu, 9 Nov 2023 00:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:34:01.500580
- Title: Signal Temporal Logic-Guided Apprenticeship Learning
- Title(参考訳): 信号時相論理誘導型認証学習
- Authors: Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis
- Abstract要約: 本稿では,高レベルタスクの目的を記述した時間論理仕様をグラフにエンコードして,時間的基準を定義する方法を示す。
制御ポリシの学習に必要な実演回数を大幅に改善することで,従来の文献の欠点を克服する方法について述べる。
- 参考スコア(独自算出の注目度): 6.8500997328311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apprenticeship learning crucially depends on effectively learning rewards,
and hence control policies from user demonstrations. Of particular difficulty
is the setting where the desired task consists of a number of sub-goals with
temporal dependencies. The quality of inferred rewards and hence policies are
typically limited by the quality of demonstrations, and poor inference of these
can lead to undesirable outcomes. In this letter, we show how temporal logic
specifications that describe high level task objectives, are encoded in a graph
to define a temporal-based metric that reasons about behaviors of demonstrators
and the learner agent to improve the quality of inferred rewards and policies.
Through experiments on a diverse set of robot manipulator simulations, we show
how our framework overcomes the drawbacks of prior literature by drastically
improving the number of demonstrations required to learn a control policy.
- Abstract(参考訳): 応募資格の学習は、効果的に報酬を学習することに依存しており、それによってユーザのデモンストレーションからポリシーを制御する。
特に難しいのは、望ましいタスクが時間依存の多くのサブゴールで構成される設定である。
予想される報酬の質とそれゆえ政策は、通常、デモの質によって制限され、これらの推測の不十分さは望ましくない結果につながる可能性がある。
本稿では,高レベルな課題目標を記述した時間論理仕様をグラフにエンコードして,実証者や学習者エージェントの行動に起因した時間的基準を定義し,評価された報酬やポリシーの質を向上させる方法を示す。
ロボットマニピュレータの多種多様なシミュレーション実験を通じて,制御方針の学習に必要なデモ数を大幅に改善し,先行文献の欠点を克服する手法を示す。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from
Demonstrations [15.762916270583698]
実演法(LfD)から学ぶことで,多段階課題の解決が期待できる。
本研究では,このような課題のルーツを,実証において暗黙的な個別計画を満たすための学習された継続的政策の失敗とみなす。
我々は,線形時間論理(LTL)式で規定される任意の離散計画について,学習された連続ポリシーがシミュレート可能であることを証明した。
論文 参考訳(メタデータ) (2022-06-09T17:25:22Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning from Demonstrations using Signal Temporal Logic [1.2182193687133713]
効果的なロボット制御ポリシーを得るための新しいパラダイムである。
我々はSignal Temporal Logicを使ってデモの質を評価しランク付けする。
提案手法は,最先端の最大因果エントロピー逆強化学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-15T18:28:36Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。