論文の概要: Interpretable Generative Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2402.10310v1
- Date: Thu, 15 Feb 2024 20:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 18:18:09.816240
- Title: Interpretable Generative Adversarial Imitation Learning
- Title(参考訳): 解釈可能な生成的相反的模倣学習
- Authors: Wenliang Liu, Danyang Li, Erfan Aasi, Roberto Tron, Calin Belta
- Abstract要約: 本稿では,信号時間論理(STL)推論と制御合成を組み合わせた新しい模倣学習手法を提案する。
このアプローチは、タスクを明確に理解するだけでなく、人間の知識の取り込みや新しいシナリオへの適応を可能にします。
- 参考スコア(独自算出の注目度): 9.20323061622786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning methods have demonstrated considerable success in teaching
autonomous systems complex tasks through expert demonstrations. However, a
limitation of these methods is their lack of interpretability, particularly in
understanding the specific task the learning agent aims to accomplish. In this
paper, we propose a novel imitation learning method that combines Signal
Temporal Logic (STL) inference and control synthesis, enabling the explicit
representation of the task as an STL formula. This approach not only provides a
clear understanding of the task but also allows for the incorporation of human
knowledge and adaptation to new scenarios through manual adjustments of the STL
formulae. Additionally, we employ a Generative Adversarial Network
(GAN)-inspired training approach for both the inference and the control policy,
effectively narrowing the gap between the expert and learned policies. The
effectiveness of our algorithm is demonstrated through two case studies,
showcasing its practical applicability and adaptability.
- Abstract(参考訳): 模倣学習法は、専門家によるデモンストレーションを通じて自律システムの複雑なタスクを教えることにかなりの成功を収めている。
しかし、これらの手法の限界は、特に学習エージェントが達成しようとする特定のタスクを理解する際に、解釈可能性の欠如である。
本稿では,信号時間論理(STL)推論と制御合成を組み合わせた新しい模倣学習手法を提案する。
このアプローチはタスクを明確に理解するだけでなく、stl式を手作業で調整することで、人間の知識と新しいシナリオへの適応を可能にする。
さらに,推論と制御方針の両方にgan(generative adversarial network)のインスパイアされたトレーニングアプローチを採用し,専門家と学習方針のギャップを効果的に狭めている。
本アルゴリズムの有効性は,その実用的適用性と適応性を示す2つのケーススタディで実証された。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - Decoupled Adversarial Contrastive Learning for Self-supervised
Adversarial Robustness [69.39073806630583]
頑健な表現学習のための対人訓練(AT)と教師なし表現学習のための自己教師型学習(SSL)は2つの活発な研究分野である。
Decoupled Adversarial Contrastive Learning (DeACL) と呼ばれる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T06:30:44Z) - Delayed Reinforcement Learning by Imitation [31.932677462399468]
遅延しない実演から遅延環境での動作方法を学ぶ新しいアルゴリズムを提案する。
各種タスクにおいて,DIDAは顕著なサンプル効率で高い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-05-11T15:27:33Z) - Shepherd Pre-trained Language Models to Develop a Train of Thought: An
Iterative Prompting Approach [30.117038793151004]
プレトレーニング言語モデル(PLM)は、複雑で多段階の推論手順を必要とするタスクを解決するために知識をリコールすることができない。
人間がこれらのタスクのために「思考の訓練」を開発するのと同じように、どのようにしてPLMにそのような能力を持たせることができるのか?
本稿では,現在のステップのコンテキスト上で条件付きプロンプトを動的に合成することで,これらの制約に対処する反復型コンテキスト認識プロンプトを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:12:20Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。