Fugu-MT 論文翻訳(概要): Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL)

論文の概要: Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL)

arxiv url: http://arxiv.org/abs/2403.01059v1
Date: Sat, 2 Mar 2024 01:40:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 15:28:19.914025
Title: Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL)
Title（参考訳）: 連続平均ゼロ不一致正規化模倣学習(cmz-dril)
Authors: Noah Ford, Ryan W. Gardner, Austin Juhl, and Nathan Larson
Abstract要約: 本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。 CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
参考スコア（独自算出の注目度）: 1.0057319866872687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine-learning paradigms such as imitation learning and reinforcement learning can generate highly performant agents in a variety of complex environments. However, commonly used methods require large quantities of data and/or a known reward function. This paper presents a method called Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL) that employs a novel reward structure to improve the performance of imitation-learning agents that have access to only a handful of expert demonstrations. CMZ-DRIL uses reinforcement learning to minimize uncertainty among an ensemble of agents trained to model the expert demonstrations. This method does not use any environment-specific rewards, but creates a continuous and mean-zero reward function from the action disagreement of the agent ensemble. As demonstrated in a waypoint-navigation environment and in two MuJoCo environments, CMZ-DRIL can generate performant agents that behave more similarly to the expert than primary previous approaches in several key metrics.
Abstract（参考訳）: 模倣学習や強化学習のような機械学習パラダイムは、様々な複雑な環境で高性能なエージェントを生成することができる。しかし、一般的に使用される方法は大量のデータと/または既知の報酬機能を必要とする。本稿では,少数の専門家によるデモンストレーションにのみアクセス可能な模擬学習エージェントの性能向上のために,新しい報酬構造を用いた連続平均ゼロ分解規則化学習(CMZ-DRIL)を提案する。 CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。この方法は環境固有の報酬を一切用いないが、エージェントアンサンブルのアクション不一致から連続的かつ平均ゼロの報酬関数を生成する。 waypoint-navigation環境と2つのmujoco環境で示されているように、cmz-drilは、いくつかの主要なメトリクスにおける主要なアプローチよりもエキスパートによく振る舞うパフォーマンスエージェントを生成することができる。

関連論文リスト

Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning [1.607353805620917]
不完全かつ不完全であっても、専門家によるデモンストレーションを効果的に活用できるフレームワークを提案する。私たちはMixturecoder Autoen Expertsを使って、デモでさまざまな振る舞いや不足した情報をキャプチャします。
論文参考訳（メタデータ） (2025-07-21T06:38:46Z)
Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning [69.81148368677593]
ジェネラリストのエージェントは生涯を通じて継続的に学び、適応し、破滅的な忘れを最小化しながら効率的な転送を実現する必要がある。従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。我々のフレームワークは、トレーニング可能な最小限のパラメータと記憶を生かしながら、継続的な適応を通して成功率において、最先端の生涯学習方法よりも優れています。
論文参考訳（メタデータ） (2025-06-06T11:13:04Z)
CCL: Collaborative Curriculum Learning for Sparse-Reward Multi-Agent Reinforcement Learning via Co-evolutionary Task Evolution [4.0873807995771]
スパース報酬環境は強化学習において特にマルチエージェントシステムにおいて重要な課題を生んでいる。本研究では,(1)個別エージェントの中間タスクの精細化,(2)情報サブタスクを生成するための変分進化アルゴリズムの利用,(3)学習安定性を高めるための環境との共進化エージェントを用いた新しいカリキュラム学習フレームワークである協調多次元学習(CCL)を提案する。
論文参考訳（メタデータ） (2025-05-08T04:23:47Z)
Attention-Augmented Inverse Reinforcement Learning with Graph Convolutions for Multi-Agent Task Allocation [0.29998889086656577]
マルチエージェントタスクアロケーション(MATA)は,協調型マルチエージェントシステムにおいて重要な役割を担う。報酬関数学習とタスク実行効率を高めるために,逆強化学習(IRL)に基づくフレームワークを提案する。提案手法が広く用いられているマルチエージェント強化学習(MARL)アルゴリズムよりも優れていることを示す実験を行った。
論文参考訳（メタデータ） (2025-04-07T13:14:45Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Quality Diversity Imitation Learning [9.627530753815968]
品質多様性模倣学習のための最初の汎用フレームワーク(QD-IL)を紹介する。本フレームワークは,品質多様性の原則を逆模倣学習(AIL)法と統合し,逆強化学習(IRL)法を改良する可能性がある。我々の手法は、最も挑戦的なヒューマノイド環境で2倍のエキスパート性能を達成できる。
論文参考訳（メタデータ） (2024-10-08T15:49:33Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。 RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文参考訳（メタデータ） (2022-03-29T09:30:26Z)
Softmax with Regularization: Better Value Estimation in Multi-Agent Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文参考訳（メタデータ） (2021-03-22T14:18:39Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文参考訳（メタデータ） (2020-12-04T11:18:02Z)
Reward Machines for Cooperative Multi-Agent Reinforcement Learning [30.84689303706561]
協調型マルチエージェント強化学習において、エージェントの集合は共通の目標を達成するために共有環境で対話することを学ぶ。本稿では、報酬関数の構造化表現として使われる単純な機械である報酬機械(RM)を用いて、チームのタスクを符号化する手法を提案する。マルチエージェント設定におけるRMの新たな解釈は、要求されるチームメイト相互依存性を明示的に符号化し、チームレベルのタスクを個々のエージェントのサブタスクに分解することを可能にする。
論文参考訳（メタデータ） (2020-07-03T23:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。