論文の概要: Mimicking Better by Matching the Approximate Action Distribution
- arxiv url: http://arxiv.org/abs/2306.09805v3
- Date: Tue, 22 Oct 2024 11:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:24:43.801556
- Title: Mimicking Better by Matching the Approximate Action Distribution
- Title(参考訳): 近似行動分布のマッチングによる改善
- Authors: João A. Cândido Ramos, Lionel Blondé, Naoya Takeishi, Alexandros Kalousis,
- Abstract要約: そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 48.95048003354255
- License:
- Abstract: In this paper, we introduce MAAD, a novel, sample-efficient on-policy algorithm for Imitation Learning from Observations. MAAD utilizes a surrogate reward signal, which can be derived from various sources such as adversarial games, trajectory matching objectives, or optimal transport criteria. To compensate for the non-availability of expert actions, we rely on an inverse dynamics model that infers plausible actions distribution given the expert's state-state transitions; we regularize the imitator's policy by aligning it to the inferred action distribution. MAAD leads to significantly improved sample efficiency and stability. We demonstrate its effectiveness in a number of MuJoCo environments, both int the OpenAI Gym and the DeepMind Control Suite. We show that it requires considerable fewer interactions to achieve expert performance, outperforming current state-of-the-art on-policy methods. Remarkably, MAAD often stands out as the sole method capable of attaining expert performance levels, underscoring its simplicity and efficacy.
- Abstract(参考訳): 本稿では,Imitation Learning from Observations(Imitation Learning from Observations)のための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
MAADは代理報酬信号を使用し、敵のゲーム、軌道整合目的、最適な輸送基準などの様々な情報源から導出することができる。
専門家の行動の非適用性を補うために,専門家の状態遷移を考慮に入れた妥当な行動分布を推論する逆ダイナミクスモデルを用い,それを推定された行動分布に整合させることで模倣者の方針を規則化する。
MAADは試料効率と安定性を著しく向上させる。
Int the OpenAI Gym と DeepMind Control Suite を併用した MuJoCo 環境において,その有効性を実証する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
注目すべきは、MAADは専門家のパフォーマンスレベルを達成できる唯一の方法であり、その単純さと有効性を強調していることだ。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
そこで我々はQMIXアルゴリズムを提案する。
行列ゲーム,捕食者-プレイ,およびStarCraft II マルチエージェントチャレンジ環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - On the Connection between Invariant Learning and Adversarial Training
for Out-of-Distribution Generalization [14.233038052654484]
ディープラーニングモデルは、アウト・オブ・ディストリビューション(OOD)データに一般化されたときに壊滅的に失敗する、急激な機能に依存している。
最近の研究によると、不変リスク最小化(IRM)は特定の種類の分散シフトに対してのみ有効であり、他のケースでは失敗する。
ドメイン固有摂動による分布変化を緩和するATインスパイアされた手法であるドメインワイズ・アドバイザリアル・トレーニング(DAT)を提案する。
論文 参考訳(メタデータ) (2022-12-18T13:13:44Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。