Fugu-MT 論文翻訳(概要): DiffAIL: Diffusion Adversarial Imitation Learning

論文の概要: DiffAIL: Diffusion Adversarial Imitation Learning

arxiv url: http://arxiv.org/abs/2312.06348v2
Date: Tue, 12 Dec 2023 03:47:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 12:30:08.499161
Title: DiffAIL: Diffusion Adversarial Imitation Learning
Title（参考訳）: DiffAIL:拡散反転模倣学習
Authors: Bingzheng Wang, Guoqiang Wu, Teng Pang, Yan Zhang, Yilong Yin
Abstract要約: 模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。拡散逆模倣学習法(DiffAIL)を提案する。提案手法は最先端の性能を達成し、2つのベンチマークタスクにおける専門家の実証をはるかに上回っている。
参考スコア（独自算出の注目度）: 32.90853955228524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Imitation learning aims to solve the problem of defining reward functions in real-world decision-making tasks. The current popular approach is the Adversarial Imitation Learning (AIL) framework, which matches expert state-action occupancy measures to obtain a surrogate reward for forward reinforcement learning. However, the traditional discriminator is a simple binary classifier and doesn't learn an accurate distribution, which may result in failing to identify expert-level state-action pairs induced by the policy interacting with the environment. To address this issue, we propose a method named diffusion adversarial imitation learning (DiffAIL), which introduces the diffusion model into the AIL framework. Specifically, DiffAIL models the state-action pairs as unconditional diffusion models and uses diffusion loss as part of the discriminator's learning objective, which enables the discriminator to capture better expert demonstrations and improve generalization. Experimentally, the results show that our method achieves state-of-the-art performance and significantly surpasses expert demonstration on two benchmark tasks, including the standard state-action setting and state-only settings. Our code can be available at the link https://github.com/ML-Group-SDU/DiffAIL.
Abstract（参考訳）: 模倣学習は、現実世界の意思決定タスクにおける報酬関数の定義問題を解決することを目的としている。現在の一般的なアプローチは、adversarial imitation learning(ail)フレームワークで、専門家のステートアクション占有手段をマッチングして、前方強化学習のための代理報酬を得る。しかし、従来の判別器は単純なバイナリ分類器であり、正確な分布を学習しないため、環境と相互作用するポリシーによって引き起こされるエキスパートレベルの状態-アクションペアを識別できない可能性がある。そこで本研究では, ailフレームワークに拡散モデルを導入するために, diffusion adversarial imitation learning (diffail) という手法を提案する。具体的には、diffailは状態-作用対を無条件拡散モデルとしてモデル化し、識別者の学習目標の一部として拡散損失を利用する。実験により,本手法は最先端性能を達成し,標準状態動作設定と状態のみ設定を含む2つのベンチマークタスクのエキスパートデモンストレーションを大幅に上回ることを示した。私たちのコードはhttps://github.com/ML-Group-SDU/DiffAIL.comのリンクで利用できます。

関連論文リスト

Improving Discriminator Guidance in Diffusion Models [43.91753296748528]
クロスエントロピー損失を用いた判別器の訓練は、一般的に行われるように、モデルと対象分布間のクルバック・リーブラーのばらつきを増大させることができることを示す。 KLの発散を適切に最小化する識別器誘導のための理論的に健全な学習目標を提案する。
論文参考訳（メタデータ） (2025-03-20T13:04:43Z)
Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。近年、拡散モデルはGANの非敵対的な代替品として出現している。提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
論文参考訳（メタデータ） (2024-10-17T17:59:25Z)
Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文参考訳（メタデータ） (2024-10-07T18:49:55Z)
Diffusion-Reward Adversarial Imitation Learning [33.81857550294019]
シミュレーション学習は、環境からの報酬信号にアクセスせずに専門家によるデモンストレーションを観察することでポリシーを学ぶことを目的としている。 GAIL(Generative Adversarial mimicion Learning)は、対人学習として模倣学習を定式化する。本稿では拡散モデルとGAILを融合した拡散逆適応学習(DRAIL)を提案する。
論文参考訳（メタデータ） (2024-05-25T11:53:23Z)
Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文参考訳（メタデータ） (2024-03-13T12:52:37Z)
Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning [51.972577689963714]
IL(Single-demonstration mimicion Learning)は、複数の専門家による実演の取得がコストのかかる、あるいは実現不可能な実世界のアプリケーションに対して、実践的なアプローチである。典型的なIL設定とは対照的に、シングルデモレーションILは1つの専門家軌道のみにアクセスするエージェントを含む。本稿では, この設定におけるスパース報酬信号の問題を強調し, 提案手法であるTransition Discriminator-based IL (TDIL) を用いてこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2024-02-01T23:06:19Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文参考訳（メタデータ） (2023-09-25T04:58:38Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Towards Equal Opportunity Fairness through Adversarial Learning [64.45845091719002]
逆行訓練は、自然言語処理におけるバイアス緩和の一般的なアプローチである。本稿では、よりリッチな特徴を生み出すために、ターゲットクラスをインプットとして利用する、対位訓練のための拡張判別器を提案する。
論文参考訳（メタデータ） (2022-03-12T02:22:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。