論文の概要: Off-Dynamics Reinforcement Learning via Domain Adaptation and Reward Augmented Imitation
- arxiv url: http://arxiv.org/abs/2411.09891v1
- Date: Fri, 15 Nov 2024 02:35:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:46.799850
- Title: Off-Dynamics Reinforcement Learning via Domain Adaptation and Reward Augmented Imitation
- Title(参考訳): ドメイン適応とReward Augmented Imitationによるオフダイナミクス強化学習
- Authors: Yihong Guo, Yixuan Wang, Yuanyuan Shi, Pan Xu, Anqi Liu,
- Abstract要約: 本稿では、模擬学習を利用して、報酬修正から学んだポリシーを対象ドメインに転送することを提案する。
DARAIL(Domain Adaptation and Reward Augmented Imitation Learning)は,ドメイン適応のための報酬修正手法である。
- 参考スコア(独自算出の注目度): 19.37193250533054
- License:
- Abstract: Training a policy in a source domain for deployment in the target domain under a dynamics shift can be challenging, often resulting in performance degradation. Previous work tackles this challenge by training on the source domain with modified rewards derived by matching distributions between the source and the target optimal trajectories. However, pure modified rewards only ensure the behavior of the learned policy in the source domain resembles trajectories produced by the target optimal policies, which does not guarantee optimal performance when the learned policy is actually deployed to the target domain. In this work, we propose to utilize imitation learning to transfer the policy learned from the reward modification to the target domain so that the new policy can generate the same trajectories in the target domain. Our approach, Domain Adaptation and Reward Augmented Imitation Learning (DARAIL), utilizes the reward modification for domain adaptation and follows the general framework of generative adversarial imitation learning from observation (GAIfO) by applying a reward augmented estimator for the policy optimization step. Theoretically, we present an error bound for our method under a mild assumption regarding the dynamics shift to justify the motivation of our method. Empirically, our method outperforms the pure modified reward method without imitation learning and also outperforms other baselines in benchmark off-dynamics environments.
- Abstract(参考訳): 動的シフトの下で、ターゲットドメインにデプロイするためのソースドメインでポリシーをトレーニングすることは、しばしばパフォーマンスの低下をもたらす。
以前の作業では、ソースとターゲットの最適軌跡間の分布の一致によって引き起こされた報酬を修正したソースドメインでトレーニングすることで、この問題に対処する。
しかし、純粋に修正された報酬は、ソースドメインにおける学習されたポリシーの振る舞いが、ターゲットの最適ポリシーによって生成された軌跡に似ていることを保証するだけであり、学習されたポリシーが実際にターゲットのドメインにデプロイされたときに最適なパフォーマンスを保証するものではない。
本研究では,模擬学習を利用して報酬修正から学んだポリシーを対象領域に転送し,新たな方針が対象領域で同じ軌跡を生成できるようにする。
提案手法であるDARAIL(Domain Adaptation and Reward Augmented Imitation Learning)は,ドメイン適応に対する報酬修正を利用して,GAIfO(Generative adversarial mimicion Learning)の一般的な枠組みに従う。
理論的には,本手法のモチベーションを正当化するための動的シフトに関する軽微な仮定の下で,提案手法の誤差を提示する。
実験により,本手法は模擬学習を伴わずに純粋修正報酬法より優れ,ベンチマークオフダイナミックス環境において,他のベースラインよりも優れていた。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - DIRECT: Learning from Sparse and Shifting Rewards using Discriminative
Reward Co-Training [13.866486498822228]
深層強化学習アルゴリズムの拡張として,差別的報酬協調学習を提案する。
差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。
DIRECTはスパース・アンド・シフト・リワード環境において最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T10:42:00Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - MetaAlign: Coordinating Domain Alignment and Classification for
Unsupervised Domain Adaptation [84.90801699807426]
本稿ではMetaAlignと呼ばれるメタ最適化に基づく効果的な戦略を提案する。
ドメインアライメントの目的と分類の目的をメタ学習計画におけるメタトレーニングとメタテストのタスクとして扱う。
実験結果は,アライメントに基づくベースラインアプローチを用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-03-25T03:16:05Z) - Gradient Regularized Contrastive Learning for Continual Domain
Adaptation [86.02012896014095]
本稿では,ラベル付きソースドメインと非ラベル付きターゲットドメインのシーケンスでモデルを提示する連続的なドメイン適応の問題について検討する。
障害を解決するため,グラディエント正規化コントラスト学習(GRCL)を提案する。
Digits、DomainNet、Office-Caltechベンチマークの実験は、我々のアプローチの強力なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-03-23T04:10:42Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Adversarial Weighting for Domain Adaptation in Regression [4.34858896385326]
制御ドメイン適応の文脈において、回帰タスクを処理するための新しいインスタンスベースのアプローチを提案する。
本研究では,情報源重み付け方式とタスクを1つのフィードフォワード勾配下で学習する逆ネットワークアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-15T09:44:04Z) - Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文 参考訳(メタデータ) (2020-06-01T17:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。