論文の概要: Diffusion-Reward Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2405.16194v1
- Date: Sat, 25 May 2024 11:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 00:31:06.133096
- Title: Diffusion-Reward Adversarial Imitation Learning
- Title(参考訳): 拡散逆反転模倣学習
- Authors: Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun,
- Abstract要約: シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。
生成モデルにおける拡散モデルの最近の優位性から着想を得た本研究は拡散逆適応学習(DRAIL)を提案する。
- 参考スコア(独自算出の注目度): 33.81857550294019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning aims to learn a policy from observing expert demonstrations without access to reward signals from environments. Generative adversarial imitation learning (GAIL) formulates imitation learning as adversarial learning, employing a generator policy learning to imitate expert behaviors and discriminator learning to distinguish the expert demonstrations from agent trajectories. Despite its encouraging results, GAIL training is often brittle and unstable. Inspired by the recent dominance of diffusion models in generative modeling, this work proposes Diffusion-Reward Adversarial Imitation Learning (DRAIL), which integrates a diffusion model into GAIL, aiming to yield more precise and smoother rewards for policy learning. Specifically, we propose a diffusion discriminative classifier to construct an enhanced discriminator; then, we design diffusion rewards based on the classifier's output for policy learning. We conduct extensive experiments in navigation, manipulation, and locomotion, verifying DRAIL's effectiveness compared to prior imitation learning methods. Moreover, additional experimental results demonstrate the generalizability and data efficiency of DRAIL. Visualized learned reward functions of GAIL and DRAIL suggest that DRAIL can produce more precise and smoother rewards.
- Abstract(参考訳): シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。
GAIL(Generative Adversarial mimicion Learning)は、ジェネレータポリシー学習(Generator Policy Learning)を用いて、専門家の行動を模倣し、差別化学習(disriminator learning)を行い、エージェントの軌跡から専門家のデモンストレーションを区別する。
励ましの結果にもかかわらず、GAILトレーニングは不安定で不安定であることが多い。
GAILに拡散モデルを統合するDRAIL(Diffusion-Reward Adversarial Imitation Learning)を提案する。
具体的には、拡張された識別器を構築するための拡散判別分類器を提案し、次に、政策学習のための分類器の出力に基づいて拡散報酬を設計する。
ナビゲーション,操作,移動に関する広範な実験を行い,従来の模倣学習法と比較してDRAILの有効性を検証する。
さらに、DRAILの一般化性とデータ効率を実験的に検証した。
GAILとDRAILの視覚的学習報酬関数は、DRAILがより正確でスムーズな報酬を得られることを示唆している。
関連論文リスト
- Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - Diffusion Reward: Learning Rewards via Conditional Video Diffusion [26.73119637442011]
Diffusion Rewardは、条件付きビデオ拡散モデルを通じて専門家のビデオから報酬を学ぶフレームワークである。
シミュレーションプラットフォームと実世界の両方におけるロボット操作タスクに対する視覚入力の有効性を示す。
論文 参考訳(メタデータ) (2023-12-21T18:55:05Z) - DiffAIL: Diffusion Adversarial Imitation Learning [32.90853955228524]
模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。
拡散逆模倣学習法(DiffAIL)を提案する。
提案手法は最先端の性能を達成し、2つのベンチマークタスクにおける専門家の実証をはるかに上回っている。
論文 参考訳(メタデータ) (2023-12-11T12:53:30Z) - Generating Personas for Games with Multimodal Adversarial Imitation
Learning [47.70823327747952]
強化学習は、人間のレベルでゲームをすることができるエージェントを生産する上で、広く成功している。
強化学習を超えて進むことは、幅広い人間のプレイスタイルをモデル化するために必要である。
本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T06:58:19Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - $f$-GAIL: Learning $f$-Divergence for Generative Adversarial Imitation
Learning [29.459037918810143]
模倣学習は、学習者と専門家の行動の相違を最小限に抑える専門家のデモンストレーションからポリシーを学ぶことを目的としている。
データ効率を向上して、専門家のポリシーをより正確に回復できるような、専門家によるデモンストレーションのセットを考えてください。
本稿では,新たなGAILモデルである$f$-GAILを提案する。
論文 参考訳(メタデータ) (2020-10-02T21:39:56Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。