論文の概要: ADR-BC: Adversarial Density Weighted Regression Behavior Cloning
- arxiv url: http://arxiv.org/abs/2405.20351v1
- Date: Tue, 28 May 2024 06:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:44:15.898555
- Title: ADR-BC: Adversarial Density Weighted Regression Behavior Cloning
- Title(参考訳): ADR-BC: 対向密度重み付き回帰行動クローニング
- Authors: Ziqi Zhang, Zifeng Zhuang, Donglin Wang, Jingzehua Xu, Miao Liu, Shuai Zhang,
- Abstract要約: イミテーションラーニング(IL)法は、まず報酬やQ関数を定式化し、次にこの形の関数を強化学習フレームワーク内で使用して経験則を最適化する。
本稿では,ADR-BCを提案する。
ADR-BCは、一段階の行動クローニングフレームワークとして、多段階のRLフレームワークに関連する累積バイアスを回避する。
- 参考スコア(独自算出の注目度): 29.095342729527733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typically, traditional Imitation Learning (IL) methods first shape a reward or Q function and then use this shaped function within a reinforcement learning (RL) framework to optimize the empirical policy. However, if the shaped reward/Q function does not adequately represent the ground truth reward/Q function, updating the policy within a multi-step RL framework may result in cumulative bias, further impacting policy learning. Although utilizing behavior cloning (BC) to learn a policy by directly mimicking a few demonstrations in a single-step updating manner can avoid cumulative bias, BC tends to greedily imitate demonstrated actions, limiting its capacity to generalize to unseen state action pairs. To address these challenges, we propose ADR-BC, which aims to enhance behavior cloning through augmented density-based action support, optimizing the policy with this augmented support. Specifically, the objective of ADR-BC shares the similar physical meanings that matching expert distribution while diverging the sub-optimal distribution. Therefore, ADR-BC can achieve more robust expert distribution matching. Meanwhile, as a one-step behavior cloning framework, ADR-BC avoids the cumulative bias associated with multi-step RL frameworks. To validate the performance of ADR-BC, we conduct extensive experiments. Specifically, ADR-BC showcases a 10.5% improvement over the previous state-of-the-art (SOTA) generalized IL baseline, CEIL, across all tasks in the Gym-Mujoco domain. Additionally, it achieves an 89.5% improvement over Implicit Q Learning (IQL) using real rewards across all tasks in the Adroit and Kitchen domains. On the other hand, we conduct extensive ablations to further demonstrate the effectiveness of ADR-BC.
- Abstract(参考訳): 通常、従来のImitation Learning(IL)手法は、まず報酬やQ関数を定式化し、次にこの形の関数を強化学習(RL)フレームワークで使用して経験則を最適化する。
しかし、形状の報酬/Q関数が基底真理報酬/Q関数を適切に表現していない場合、多段階のRLフレームワーク内でポリシーを更新すると累積バイアスが発生し、さらに政策学習に影響を及ぼす可能性がある。
行動クローニング(BC)を利用して、一段階の更新方法でいくつかのデモを直接模倣することでポリシーを学ぶことは累積バイアスを避けることができるが、BCは、実証されたアクションを巧みに模倣し、目に見えない状態のアクションペアに一般化する能力を制限する傾向にある。
これらの課題に対処するため,ADR-BCを提案する。
特に、ADR-BCの目的は、準最適分布を分岐しながら専門家分布と一致するような物理的意味を共有することである。
したがって、ADR-BCはより堅牢な専門家分布マッチングを実現することができる。
一方、ADR-BCは1段階の行動クローニングフレームワークであり、多段階のRLフレームワークに関連する累積バイアスを避けている。
ADR-BCの性能を検証するため,我々は広範囲な実験を行った。
具体的には、ADR-BCは、Gym-Mujocoドメインのすべてのタスクに対して、以前の最先端(SOTA)の一般化されたILベースラインであるCEILよりも10.5%改善されている。
さらに、AdroitドメインとKitchenドメインの全タスクの本当の報酬を使用して、Implicit Q Learning(IQL)よりも89.5%改善されている。
一方,ADR-BCの有効性をさらに示すため,広範囲にわたる改善を行った。
関連論文リスト
- Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
ビヘイビアクローン(BC)は印象的な機能を実現しているが、アセンブリのようなオブジェクトの正確な整合と挿入を必要とするタスクに対する信頼性の高いポリシーを学ぶには、模倣が不十分である。
ResiP(Residual for Precise Manipulation)は、RLで訓練された完全閉ループ残差ポリシで、凍結したチャンクされたBCモデルを拡張することで、これらの課題をサイドステップで進める。
高精度な操作タスクの評価は、BC法と直接RL微調整によるResiPの強い性能を示す。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - ABC: Adversarial Behavioral Cloning for Offline Mode-Seeking Imitation
Learning [48.033516430071494]
本稿では,GAN(Generative Adversarial Network)トレーニングの要素を取り入れて,モード探索行動を示す行動クローニング(BC)の修正版を紹介する。
我々は,DeepMind Control スイートから Hopper をベースとした玩具ドメインとドメイン上でABC を評価し,モード探索により標準 BC よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T04:54:54Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。