論文の概要: Sample-Efficient On-Policy Imitation Learning from Observations
- arxiv url: http://arxiv.org/abs/2306.09805v1
- Date: Fri, 16 Jun 2023 12:43:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:02:02.930910
- Title: Sample-Efficient On-Policy Imitation Learning from Observations
- Title(参考訳): 観察から学ぶサンプル効率のオンポリシィ・イミテーション
- Authors: Jo\~ao A. C\^andido Ramos, Lionel Blond\'e, Naoya Takeishi and
Alexandros Kalousis
- Abstract要約: 本稿では,観察から学習した模擬学習のための新しいサンプル効率のオンポリシーアルゴリズムSEILOを提案する。
提案アルゴリズムは,他の最先端のILO法やILD法と比較して,専門家のパフォーマンスを達成するために環境との相互作用を少なくする。
- 参考スコア(独自算出の注目度): 67.2916519505394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning from demonstrations (ILD) aims to alleviate numerous
shortcomings of reinforcement learning through the use of demonstrations.
However, in most real-world applications, expert action guidance is absent,
making the use of ILD impossible. Instead, we consider imitation learning from
observations (ILO), where no expert actions are provided, making it a
significantly more challenging problem to address. Existing methods often
employ on-policy learning, which is known to be sample-costly. This paper
presents SEILO, a novel sample-efficient on-policy algorithm for ILO, that
combines standard adversarial imitation learning with inverse dynamics
modeling. This approach enables the agent to receive feedback from both the
adversarial procedure and a behavior cloning loss. We empirically demonstrate
that our proposed algorithm requires fewer interactions with the environment to
achieve expert performance compared to other state-of-the-art on-policy ILO and
ILD methods.
- Abstract(参考訳): 実演からの模倣学習(ILD)は、実演による強化学習の多くの欠点を軽減することを目的としている。
しかし、現実世界のほとんどのアプリケーションでは専門家のアクションガイダンスがないため、IDDの使用は不可能である。
代わりに、専門家のアクションが提供されない観察(ilo)からの模倣学習を検討すれば、対処がはるかに難しい問題になります。
既存の手法では、サンプルコストで知られているオンポリシー学習を用いることが多い。
本稿では,標準対向模倣学習と逆動力学モデリングを組み合わせた,新しいILOのサンプル効率向上アルゴリズムSEILOを提案する。
このアプローチにより、エージェントは、逆行手順と行動クローン損失の両方からフィードバックを受け取ることができる。
提案するアルゴリズムは,他の最先端のILO法やILD法と比較して,環境とのインタラクションが少ないことを実証的に実証した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
そこで我々はQMIXアルゴリズムを提案する。
行列ゲーム,捕食者-プレイ,およびStarCraft II マルチエージェントチャレンジ環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - On the Connection between Invariant Learning and Adversarial Training
for Out-of-Distribution Generalization [14.233038052654484]
ディープラーニングモデルは、アウト・オブ・ディストリビューション(OOD)データに一般化されたときに壊滅的に失敗する、急激な機能に依存している。
最近の研究によると、不変リスク最小化(IRM)は特定の種類の分散シフトに対してのみ有効であり、他のケースでは失敗する。
ドメイン固有摂動による分布変化を緩和するATインスパイアされた手法であるドメインワイズ・アドバイザリアル・トレーニング(DAT)を提案する。
論文 参考訳(メタデータ) (2022-12-18T13:13:44Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。