論文の概要: Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression
- arxiv url: http://arxiv.org/abs/2405.20351v3
- Date: Mon, 13 Jan 2025 12:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:02.222311
- Title: Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression
- Title(参考訳): 対向密度重み回帰による補助的不完全な演示からの逸脱
- Authors: Ziqi Zhang, Zifeng Zhuang, Jingzehua Xu, Yiyuan Yang, Yubo Huang, Donglin Wang, Shuai Zhang,
- Abstract要約: 本稿では,適応密度回帰(Adversarial Density Regression)と呼ばれる,一段階の教師付き模倣学習フレームワークを提案する。
実演を生かして、専門家の分布に合わせるために、未知の品質で学んだポリシーを正すことを目的としている。
AdroitドメインとKitchenドメインのタスクの真理的な報酬を利用する場合、IQLよりも89.5%改善されている。
- 参考スコア(独自算出の注目度): 27.08369731750032
- License:
- Abstract: We propose a novel one-step supervised imitation learning (IL) framework called Adversarial Density Regression (ADR). This IL framework aims to correct the policy learned on unknown-quality to match the expert distribution by utilizing demonstrations, without relying on the Bellman operator. Specifically, ADR addresses several limitations in previous IL algorithms: First, most IL algorithms are based on the Bellman operator, which inevitably suffer from cumulative offsets from sub-optimal rewards during multi-step update processes. Additionally, off-policy training frameworks suffer from Out-of-Distribution (OOD) state-actions. Second, while conservative terms help solve the OOD issue, balancing the conservative term is difficult. To address these limitations, we fully integrate a one-step density-weighted Behavioral Cloning (BC) objective for IL with auxiliary imperfect demonstration. Theoretically, we demonstrate that this adaptation can effectively correct the distribution of policies trained on unknown-quality datasets to align with the expert policy's distribution. Moreover, the difference between the empirical and the optimal value function is proportional to the upper bound of ADR's objective, indicating that minimizing ADR's objective is akin to approaching the optimal value. Experimentally, we validated the performance of ADR by conducting extensive evaluations. Specifically, ADR outperforms all of the selected IL algorithms on tasks from the Gym-Mujoco domain. Meanwhile, it achieves an 89.5% improvement over IQL when utilizing ground truth rewards on tasks from the Adroit and Kitchen domains. Our codebase will be released at: https://github.com/stevezhangzA/Adverserial_Density_Regression.
- Abstract(参考訳): 本稿では,適応密度回帰(Adversarial Density Regression, ADR)と呼ばれる,一段階の教師付き模倣学習(IL)フレームワークを提案する。
このILフレームワークは、ベルマン演算子を頼らずに、実演を利用して専門家の分布に合うように、未知の品質で学んだポリシーを修正することを目的としている。
第一に、ほとんどのILアルゴリズムはベルマン演算子に基づいており、多段階更新プロセスにおいて、必然的に準最適報酬の累積オフセットに悩まされる。
さらに、政治外のトレーニングフレームワークは、アウト・オブ・ディストリビューション(OOD)状態アクションに悩まされる。
第二に、保守的な用語はOOD問題を解決するのに役立つが、保守的な用語のバランスは難しい。
これらの制約に対処するために、ILの1ステップの密度重み付け行動クローン(BC)目標を補助的不完全なデモと完全に統合する。
理論的には、この適応は、未知の品質データセットで訓練されたポリシーの分布を効果的に補正し、専門家のポリシーの分布に合わせることができる。
さらに、実験値関数と最適値関数の差は、ADRの目的値の上限値に比例し、ADRの目的値の最小化が最適値に近づくのに類似していることを示す。
実験では,広範囲な評価を行うことで,ADRの性能を検証した。
具体的には、ADRは、Gym-Mujocoドメインのタスクで選択されたILアルゴリズムを全て上回っている。
一方、AdroitドメインとKitchenドメインのタスクの真理的な報酬を利用する場合、IQLよりも89.5%改善されている。
私たちのコードベースは、https://github.com/stevezhangzA/Adverserial_Density_Regression.orgでリリースされます。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。