論文の概要: Continuous Mean-Zero Disagreement-Regularized Imitation Learning
(CMZ-DRIL)
- arxiv url: http://arxiv.org/abs/2403.01059v1
- Date: Sat, 2 Mar 2024 01:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:28:19.914025
- Title: Continuous Mean-Zero Disagreement-Regularized Imitation Learning
(CMZ-DRIL)
- Title(参考訳): 連続平均ゼロ不一致正規化模倣学習(cmz-dril)
- Authors: Noah Ford, Ryan W. Gardner, Austin Juhl, and Nathan Larson
- Abstract要約: 本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。
CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。
ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
- 参考スコア(独自算出の注目度): 1.0057319866872687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-learning paradigms such as imitation learning and reinforcement
learning can generate highly performant agents in a variety of complex
environments. However, commonly used methods require large quantities of data
and/or a known reward function. This paper presents a method called Continuous
Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL) that employs a
novel reward structure to improve the performance of imitation-learning agents
that have access to only a handful of expert demonstrations. CMZ-DRIL uses
reinforcement learning to minimize uncertainty among an ensemble of agents
trained to model the expert demonstrations. This method does not use any
environment-specific rewards, but creates a continuous and mean-zero reward
function from the action disagreement of the agent ensemble. As demonstrated in
a waypoint-navigation environment and in two MuJoCo environments, CMZ-DRIL can
generate performant agents that behave more similarly to the expert than
primary previous approaches in several key metrics.
- Abstract(参考訳): 模倣学習や強化学習のような機械学習パラダイムは、様々な複雑な環境で高性能なエージェントを生成することができる。
しかし、一般的に使用される方法は大量のデータと/または既知の報酬機能を必要とする。
本稿では,少数の専門家によるデモンストレーションにのみアクセス可能な模擬学習エージェントの性能向上のために,新しい報酬構造を用いた連続平均ゼロ分解規則化学習(CMZ-DRIL)を提案する。
CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。
この方法は環境固有の報酬を一切用いないが、エージェントアンサンブルのアクション不一致から連続的かつ平均ゼロの報酬関数を生成する。
waypoint-navigation環境と2つのmujoco環境で示されているように、cmz-drilは、いくつかの主要なメトリクスにおける主要なアプローチよりもエキスパートによく振る舞うパフォーマンスエージェントを生成することができる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Quality Diversity Imitation Learning [9.627530753815968]
品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。
本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。
我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
論文 参考訳(メタデータ) (2024-10-08T15:49:33Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。
本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。
マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文 参考訳(メタデータ) (2020-07-03T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。