論文の概要: Behavior Constraining in Weight Space for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.05479v1
- Date: Mon, 12 Jul 2021 14:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:51:15.398891
- Title: Behavior Constraining in Weight Space for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における重み空間の動作制約
- Authors: Phillip Swazinna, Steffen Udluft, Daniel Hein, Thomas Runkler
- Abstract要約: オフラインの強化学習では、ポリシーは単一のデータセットから学ぶ必要がある。
そこで,本研究では,本手法を重み空間内で直接制約する新しいアルゴリズムを提案し,その有効性を実験で実証する。
- 参考スコア(独自算出の注目度): 2.7184068098378855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning, a policy needs to be learned from a single
pre-collected dataset. Typically, policies are thus regularized during training
to behave similarly to the data generating policy, by adding a penalty based on
a divergence between action distributions of generating and trained policy. We
propose a new algorithm, which constrains the policy directly in its weight
space instead, and demonstrate its effectiveness in experiments.
- Abstract(参考訳): オフラインの強化学習では、1つのプレコンパイルデータセットからポリシーを学ぶ必要がある。
典型的には、ポリシーはトレーニング中にデータ生成ポリシーと同様に振る舞うように規則化され、生成ポリシーと訓練ポリシーの行動分布の相違に基づいてペナルティを課す。
本研究では,その代わりに,その重み空間内で直接ポリシーを制約する新しいアルゴリズムを提案し,その効果を実験で実証する。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - SelfBC: Self Behavior Cloning for Offline Reinforcement Learning [14.573290839055316]
本研究では,これまでに学習したポリシーの指数的移動平均によって生成されたサンプルに対して,学習したポリシーを制約する新しい動的ポリシー制約を提案する。
我々のアプローチは、ほぼ単調に改善された参照ポリシーをもたらす。
論文 参考訳(メタデータ) (2024-08-04T23:23:48Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。