論文の概要: Diffusion-Reward Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2405.16194v1
- Date: Sat, 25 May 2024 11:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:31:06.133096
- Title: Diffusion-Reward Adversarial Imitation Learning
- Title(参考訳): 拡散逆反転模倣学習
- Authors: Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun,
- Abstract要約: シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。
生成モデルにおける拡散モデルの最近の優位性から着想を得た本研究は拡散逆適応学習(DRAIL)を提案する。
- 参考スコア(独自算出の注目度): 33.81857550294019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning aims to learn a policy from observing expert demonstrations without access to reward signals from environments. Generative adversarial imitation learning (GAIL) formulates imitation learning as adversarial learning, employing a generator policy learning to imitate expert behaviors and discriminator learning to distinguish the expert demonstrations from agent trajectories. Despite its encouraging results, GAIL training is often brittle and unstable. Inspired by the recent dominance of diffusion models in generative modeling, this work proposes Diffusion-Reward Adversarial Imitation Learning (DRAIL), which integrates a diffusion model into GAIL, aiming to yield more precise and smoother rewards for policy learning. Specifically, we propose a diffusion discriminative classifier to construct an enhanced discriminator; then, we design diffusion rewards based on the classifier's output for policy learning. We conduct extensive experiments in navigation, manipulation, and locomotion, verifying DRAIL's effectiveness compared to prior imitation learning methods. Moreover, additional experimental results demonstrate the generalizability and data efficiency of DRAIL. Visualized learned reward functions of GAIL and DRAIL suggest that DRAIL can produce more precise and smoother rewards.
- Abstract(参考訳): シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、ジェネレータポリシー学習(Generator Policy Learning)を用いて、専門家の行動を模倣し、差別化学習(disriminator learning)を行い、エージェントの軌跡から専門家のデモンストレーションを区別する。
励ましの結果にもかかわらず、GAILトレーニングは不安定で不安定であることが多い。
GAILに拡散モデルを統合するDRAIL(Diffusion-Reward Adversarial Imitation Learning)を提案する。
具体的には、拡張された識別器を構築するための拡散判別分類器を提案し、次に、政策学習のための分類器の出力に基づいて拡散報酬を設計する。
ナビゲーション,操作,移動に関する広範な実験を行い,従来の模倣学習法と比較してDRAILの有効性を検証する。
さらに、DRAILの一般化性とデータ効率を実験的に検証した。
GAILとDRAILの視覚的学習報酬関数は、DRAILがより正確でスムーズな報酬を得られることを示唆している。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
Imitation Learning と Inverse Reinforcement Learning の逆の変種は、判別器を介して専門家によるデモンストレーションからポリシーを学ぶことで代替手段を提供する。
本稿では,不完全なデータと効率の両面において頑健性を実現する教師学生システムであるRILeを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - DiffAIL: Diffusion Adversarial Imitation Learning [32.90853955228524]
模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。
拡散逆模倣学習法(DiffAIL)を提案する。
提案手法は最先端の性能を達成し、2つのベンチマークタスクにおける専門家の実証をはるかに上回っている。
論文 参考訳(メタデータ) (2023-12-11T12:53:30Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Towards Equal Opportunity Fairness through Adversarial Learning [64.45845091719002]
逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。
本稿では、よりリッチな特徴を生み出すために、ターゲットクラスをインプットとして利用する、対位訓練のための拡張判別器を提案する。
論文 参考訳(メタデータ) (2022-03-12T02:22:58Z) - $f$-GAIL: Learning $f$-Divergence for Generative Adversarial Imitation
Learning [29.459037918810143]
模倣学習は、学習者と専門家の行動の相違を最小限に抑える専門家のデモンストレーションからポリシーを学ぶことを目的としている。
データ効率を向上して、専門家のポリシーをより正確に回復できるような、専門家によるデモンストレーションのセットを考えてください。
本稿では,新たなGAILモデルである$f$-GAILを提案する。
論文 参考訳(メタデータ) (2020-10-02T21:39:56Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。