論文の概要: Dual Behavior Regularized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.09037v1
- Date: Sun, 19 Sep 2021 00:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:51:53.624742
- Title: Dual Behavior Regularized Reinforcement Learning
- Title(参考訳): 二重行動正規化強化学習
- Authors: Chapman Siu, Jason Traish, Richard Yi Da Xu
- Abstract要約: 強化学習は、環境とのインタラクションや経験の活用を通じて、様々な複雑なタスクを実行することが示されている。
本稿では,反実的後悔最小化に基づく二元的利点に基づく行動ポリシーを提案する。
- 参考スコア(独自算出の注目度): 8.883885464358737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning has been shown to perform a range of complex tasks
through interaction with an environment or collected leveraging experience.
However, many of these approaches presume optimal or near optimal experiences
or the presence of a consistent environment. In this work we propose dual,
advantage-based behavior policy based on counterfactual regret minimization. We
demonstrate the flexibility of this approach and how it can be adapted to
online contexts where the environment is available to collect experiences and a
variety of other contexts. We demonstrate this new algorithm can outperform
several strong baseline models in different contexts based on a range of
continuous environments. Additional ablations provide insights into how our
dual behavior regularized reinforcement learning approach is designed compared
with other plausible modifications and demonstrates its ability to generalize.
- Abstract(参考訳): 強化学習は、環境とのインタラクションや経験の活用を通じて、様々な複雑なタスクを実行することが示されている。
しかし、これらのアプローチの多くは、最適あるいはほぼ最適な経験や一貫した環境の存在を想定している。
本研究では,反実的後悔最小化に基づく二元的利点に基づく行動ポリシーを提案する。
このアプローチの柔軟性と、経験やその他のさまざまなコンテキストを収集するための環境が利用可能なオンラインコンテキストにどのように適用できるかを実証する。
このアルゴリズムは, 連続環境の幅に応じて, 異なる状況下で複数の強いベースラインモデルより優れていることを示す。
追加のアブレーションは、私たちの二重行動の正規化強化学習アプローチが、他の説得力のある修正と比較してどのように設計されているかに関する洞察を与え、一般化する能力を示しています。
関連論文リスト
- Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - Open-Ended Diverse Solution Discovery with Regulated Behavior Patterns
for Cross-Domain Adaptation [5.090135391530077]
多様な行動特性を持つ政策は、様々な相違のある下流環境に一般化することができる。
このような方針は、現実世界のシステムのような現実的なシナリオにおける展開中に破滅的な被害をもたらす可能性がある。
本稿では,規制行動を用いた多彩な政策を訓練し,望ましいパターンを発見することを提案する。
論文 参考訳(メタデータ) (2022-09-24T15:13:51Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Characterizing Policy Divergence for Personalized Meta-Reinforcement
Learning [4.716565301427257]
我々は、複数のエンティティのセットに対して、潜在的に異なる特性を持つ複数のエンティティに対して最適なポリシーを推奨する問題を考察する。
メタラーニングにおける既存の文献から着想を得たモデルフリーなメタラーニングアルゴリズムを提案する。
提案アルゴリズムは,逆強化学習における手法による過去の政策分岐を特徴付けることを含み,そのような指標が過去の政策パラメータを,それらが配置された環境によって効果的に識別できることを示す。
論文 参考訳(メタデータ) (2020-10-09T21:31:53Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Generalization Guarantees for Imitation Learning [6.542289202349586]
模倣学習からの制御ポリシーは、しばしば新しい環境への一般化に失敗する。
本稿では,PAC-Bayesフレームワークを利用した模倣学習のための厳密な一般化保証を提案する。
論文 参考訳(メタデータ) (2020-08-05T03:04:13Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。