論文の概要: Policy Learning for Off-Dynamics RL with Deficient Support
- arxiv url: http://arxiv.org/abs/2402.10765v1
- Date: Fri, 16 Feb 2024 15:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:26:01.829444
- Title: Policy Learning for Off-Dynamics RL with Deficient Support
- Title(参考訳): 障害支援を伴うオフダイナミックスRLのポリシー学習
- Authors: Linh Le Pham Van and Hung The Tran and Sunil Gupta
- Abstract要約: 強化学習は複雑な政策を効果的に学習することができる。
これらのポリシーを学ぶには、しばしば環境との広範囲な試行錯誤の相互作用を必要とする。
一般的な戦略は、低コストで高速なソースシミュレータで訓練されたポリシーを現実のターゲット環境に移すことである。
- 参考スコア(独自算出の注目度): 8.703649682942174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) can effectively learn complex policies. However,
learning these policies often demands extensive trial-and-error interactions
with the environment. In many real-world scenarios, this approach is not
practical due to the high costs of data collection and safety concerns. As a
result, a common strategy is to transfer a policy trained in a low-cost, rapid
source simulator to a real-world target environment. However, this process
poses challenges. Simulators, no matter how advanced, cannot perfectly
replicate the intricacies of the real world, leading to dynamics discrepancies
between the source and target environments. Past research posited that the
source domain must encompass all possible target transitions, a condition we
term full support. However, expecting full support is often unrealistic,
especially in scenarios where significant dynamics discrepancies arise. In this
paper, our emphasis shifts to addressing large dynamics mismatch adaptation. We
move away from the stringent full support condition of earlier research,
focusing instead on crafting an effective policy for the target domain. Our
proposed approach is simple but effective. It is anchored in the central
concepts of the skewing and extension of source support towards target support
to mitigate support deficiencies. Through comprehensive testing on a varied set
of benchmarks, our method's efficacy stands out, showcasing notable
improvements over previous techniques.
- Abstract(参考訳): 強化学習(RL)は複雑な政策を効果的に学習することができる。
しかし、これらのポリシーを学ぶには、環境との広範囲な試行錯誤の相互作用を必要とすることが多い。
多くの現実のシナリオでは、このアプローチはデータ収集と安全性の懸念が高いため実用的ではない。
結果として、低コストで迅速なソースシミュレータでトレーニングされたポリシーを実際のターゲット環境に移すことが一般的な戦略となる。
しかし、このプロセスは困難をもたらす。
シミュレータは、どんなに高度なものであっても、現実世界の複雑さを完全に再現することはできないため、ソースとターゲット環境のダイナミクスの相違につながる。
過去の研究は、ソースドメインはすべての可能なターゲット遷移を包含しなければならないと仮定した。
しかし、特に大きなダイナミクスの相違が生じるシナリオでは、完全なサポートを期待するのは現実的ではないことが多い。
本稿では,大規模動的ミスマッチ適応への取り組みに重点を移す。
従来の研究の厳格な完全サポート状態から脱却し、ターゲットドメインに対して効果的なポリシーを構築することに注力する。
提案手法は単純だが有効である。
ストーイングとソースサポートの拡張という中心的な概念で、サポート不足を軽減するためにターゲットサポートに固定されている。
各種ベンチマークの総合的なテストを通じて,提案手法の有効性が注目され,従来の手法よりも顕著な改善が見られた。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via
Distribution Matching [12.335788185691916]
逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。
以前のIRLアルゴリズムは、安定かつ最適なパフォーマンスのために現在のポリシーから集中的にサンプリングする必要があるオン・ポリティ転移を使用する。
我々は、オフ・ポリティ・逆強化学習(OPIRL)を紹介し、オフ・ポリティィ・データ配信をオン・ポリティィではなく、オフ・ポリティィ・データ配信を採用する。
論文 参考訳(メタデータ) (2021-09-09T14:32:26Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。