論文の概要: Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression
- arxiv url: http://arxiv.org/abs/2405.20351v3
- Date: Mon, 13 Jan 2025 12:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:02.222311
- Title: Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression
- Title(参考訳): 対向密度重み回帰による補助的不完全な演示からの逸脱
- Authors: Ziqi Zhang, Zifeng Zhuang, Jingzehua Xu, Yiyuan Yang, Yubo Huang, Donglin Wang, Shuai Zhang,
- Abstract要約: 本稿では,適応密度回帰(Adversarial Density Regression)と呼ばれる,一段階の教師付き模倣学習フレームワークを提案する。
実演を生かして、専門家の分布に合わせるために、未知の品質で学んだポリシーを正すことを目的としている。
AdroitドメインとKitchenドメインのタスクの真理的な報酬を利用する場合、IQLよりも89.5%改善されている。
- 参考スコア(独自算出の注目度): 27.08369731750032
- License:
- Abstract: We propose a novel one-step supervised imitation learning (IL) framework called Adversarial Density Regression (ADR). This IL framework aims to correct the policy learned on unknown-quality to match the expert distribution by utilizing demonstrations, without relying on the Bellman operator. Specifically, ADR addresses several limitations in previous IL algorithms: First, most IL algorithms are based on the Bellman operator, which inevitably suffer from cumulative offsets from sub-optimal rewards during multi-step update processes. Additionally, off-policy training frameworks suffer from Out-of-Distribution (OOD) state-actions. Second, while conservative terms help solve the OOD issue, balancing the conservative term is difficult. To address these limitations, we fully integrate a one-step density-weighted Behavioral Cloning (BC) objective for IL with auxiliary imperfect demonstration. Theoretically, we demonstrate that this adaptation can effectively correct the distribution of policies trained on unknown-quality datasets to align with the expert policy's distribution. Moreover, the difference between the empirical and the optimal value function is proportional to the upper bound of ADR's objective, indicating that minimizing ADR's objective is akin to approaching the optimal value. Experimentally, we validated the performance of ADR by conducting extensive evaluations. Specifically, ADR outperforms all of the selected IL algorithms on tasks from the Gym-Mujoco domain. Meanwhile, it achieves an 89.5% improvement over IQL when utilizing ground truth rewards on tasks from the Adroit and Kitchen domains. Our codebase will be released at: https://github.com/stevezhangzA/Adverserial_Density_Regression.
- Abstract(参考訳): 本稿では,適応密度回帰(Adversarial Density Regression, ADR)と呼ばれる,一段階の教師付き模倣学習(IL)フレームワークを提案する。
このILフレームワークは、ベルマン演算子を頼らずに、実演を利用して専門家の分布に合うように、未知の品質で学んだポリシーを修正することを目的としている。
第一に、ほとんどのILアルゴリズムはベルマン演算子に基づいており、多段階更新プロセスにおいて、必然的に準最適報酬の累積オフセットに悩まされる。
さらに、政治外のトレーニングフレームワークは、アウト・オブ・ディストリビューション(OOD)状態アクションに悩まされる。
第二に、保守的な用語はOOD問題を解決するのに役立つが、保守的な用語のバランスは難しい。
これらの制約に対処するために、ILの1ステップの密度重み付け行動クローン(BC)目標を補助的不完全なデモと完全に統合する。
理論的には、この適応は、未知の品質データセットで訓練されたポリシーの分布を効果的に補正し、専門家のポリシーの分布に合わせることができる。
さらに、実験値関数と最適値関数の差は、ADRの目的値の上限値に比例し、ADRの目的値の最小化が最適値に近づくのに類似していることを示す。
実験では,広範囲な評価を行うことで,ADRの性能を検証した。
具体的には、ADRは、Gym-Mujocoドメインのタスクで選択されたILアルゴリズムを全て上回っている。
一方、AdroitドメインとKitchenドメインのタスクの真理的な報酬を利用する場合、IQLよりも89.5%改善されている。
私たちのコードベースは、https://github.com/stevezhangzA/Adverserial_Density_Regression.orgでリリースされます。
関連論文リスト
- Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。
ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation
Learning [48.033516430071494]
本稿では,GAN(Generative Adversarial Network)トレーニングの要素を取り入れて,モード探索行動を示す行動クローニング(BC)の修正版を紹介する。
我々は,DeepMind Control スイートから Hopper をベースとした玩具ドメインとドメイン上でABC を評価し,モード探索により標準 BC よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T04:54:54Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。