論文の概要: DiffAIL: Diffusion Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2312.06348v2
- Date: Tue, 12 Dec 2023 03:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 12:30:08.499161
- Title: DiffAIL: Diffusion Adversarial Imitation Learning
- Title(参考訳): DiffAIL:拡散反転模倣学習
- Authors: Bingzheng Wang, Guoqiang Wu, Teng Pang, Yan Zhang, Yilong Yin
- Abstract要約: 模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。
拡散逆模倣学習法(DiffAIL)を提案する。
提案手法は最先端の性能を達成し、2つのベンチマークタスクにおける専門家の実証をはるかに上回っている。
- 参考スコア(独自算出の注目度): 32.90853955228524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning aims to solve the problem of defining reward functions in
real-world decision-making tasks. The current popular approach is the
Adversarial Imitation Learning (AIL) framework, which matches expert
state-action occupancy measures to obtain a surrogate reward for forward
reinforcement learning. However, the traditional discriminator is a simple
binary classifier and doesn't learn an accurate distribution, which may result
in failing to identify expert-level state-action pairs induced by the policy
interacting with the environment. To address this issue, we propose a method
named diffusion adversarial imitation learning (DiffAIL), which introduces the
diffusion model into the AIL framework. Specifically, DiffAIL models the
state-action pairs as unconditional diffusion models and uses diffusion loss as
part of the discriminator's learning objective, which enables the discriminator
to capture better expert demonstrations and improve generalization.
Experimentally, the results show that our method achieves state-of-the-art
performance and significantly surpasses expert demonstration on two benchmark
tasks, including the standard state-action setting and state-only settings. Our
code can be available at the link https://github.com/ML-Group-SDU/DiffAIL.
- Abstract(参考訳): 模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。
現在の一般的なアプローチは、adversarial imitation learning(ail)フレームワークで、専門家のステートアクション占有手段をマッチングして、前方強化学習のための代理報酬を得る。
しかし、従来の判別器は単純なバイナリ分類器であり、正確な分布を学習しないため、環境と相互作用するポリシーによって引き起こされるエキスパートレベルの状態-アクションペアを識別できない可能性がある。
そこで本研究では, ailフレームワークに拡散モデルを導入するために, diffusion adversarial imitation learning (diffail) という手法を提案する。
具体的には、diffailは状態-作用対を無条件拡散モデルとしてモデル化し、識別者の学習目標の一部として拡散損失を利用する。
実験により,本手法は最先端性能を達成し,標準状態動作設定と状態のみ設定を含む2つのベンチマークタスクのエキスパートデモンストレーションを大幅に上回ることを示した。
私たちのコードはhttps://github.com/ML-Group-SDU/DiffAIL.comのリンクで利用できます。
関連論文リスト
- Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Behavioral Refinement via Interpolant-based Policy Diffusion [17.63910869653275]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
我々の手法はBRIDGERと呼ばれ、補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Expert Proximity as Surrogate Rewards for Single Demonstration Imitation
Learning [55.070965595078285]
IL(Single-demonstration mimicion Learning)は、現実のアプリケーションにおいて、多くの専門家によるデモンストレーションを得ることがコストのかかる、あるいは実現不可能な実践的なアプローチである。
本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-01T23:06:19Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [99.7952627335176]
拡散モデルは、行動クローニングとオフライン強化学習においてアクターポリシーを表現するために一般的な選択肢となっている。
それまでの作業では、拡散モデルのスコアベース構造を活用できず、代わりに単純な行動クローニング用語を使用してアクターを訓練した。
本稿では,Q関数のスコアと行動勾配の関連構造を利用した拡散モデルポリシーの学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Towards Equal Opportunity Fairness through Adversarial Learning [64.45845091719002]
逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。
本稿では、よりリッチな特徴を生み出すために、ターゲットクラスをインプットとして利用する、対位訓練のための拡張判別器を提案する。
論文 参考訳(メタデータ) (2022-03-12T02:22:58Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z) - Spatial Contrastive Learning for Few-Shot Classification [9.66840768820136]
局所的識別性およびクラス非依存性の特徴を学習するための新しい注意に基づく空間コントラスト目標を提案する。
実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-26T23:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。