論文の概要: Reward-Consistent Dynamics Models are Strongly Generalizable for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.05422v1
- Date: Mon, 9 Oct 2023 05:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:29:16.164800
- Title: Reward-Consistent Dynamics Models are Strongly Generalizable for Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習のための逆一貫性ダイナミクスモデル
- Authors: Fan-Ming Luo, Tian Xu, Xingchen Cao, Yang Yu
- Abstract要約: 我々はMOREC (Model-based Offline reinforcement learning with Reward Consistency) 法を実装した。
MORECはオフラインデータから一般化可能な動的報酬関数を学習する。
12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 11.781281131497959
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning a precise dynamics model can be crucial for offline reinforcement
learning, which, unfortunately, has been found to be quite challenging.
Dynamics models that are learned by fitting historical transitions often
struggle to generalize to unseen transitions. In this study, we identify a
hidden but pivotal factor termed dynamics reward that remains consistent across
transitions, offering a pathway to better generalization. Therefore, we propose
the idea of reward-consistent dynamics models: any trajectory generated by the
dynamics model should maximize the dynamics reward derived from the data. We
implement this idea as the MOREC (Model-based Offline reinforcement learning
with Reward Consistency) method, which can be seamlessly integrated into
previous offline model-based reinforcement learning (MBRL) methods. MOREC
learns a generalizable dynamics reward function from offline data, which is
subsequently employed as a transition filter in any offline MBRL method: when
generating transitions, the dynamics model generates a batch of transitions and
selects the one with the highest dynamics reward value. On a synthetic task, we
visualize that MOREC has a strong generalization ability and can surprisingly
recover some distant unseen transitions. On 21 offline tasks in D4RL and NeoRL
benchmarks, MOREC improves the previous state-of-the-art performance by a
significant margin, i.e., 4.6% on D4RL tasks and 25.9% on NeoRL tasks. Notably,
MOREC is the first method that can achieve above 95% online RL performance in 6
out of 12 D4RL tasks and 3 out of 9 NeoRL tasks.
- Abstract(参考訳): 正確なダイナミックスモデルを学習することは、オフラインの強化学習に不可欠であり、残念なことに、非常に難しいことが判明した。
歴史的遷移を適合させることで学習されるダイナミクスモデルは、しばしば目に見えない遷移に一般化するのに苦労する。
本研究では,遷移をまたがって一貫したダイナミクス報酬という,隠されているが重要な要素を同定し,より一般化するための経路を提供する。
そこで本研究では,力学モデルによって生成された任意の軌道は,データから得られる力学報酬を最大化するべきである。
この考え方をMOREC(Model-based Offline reinforcement learning with Reward Consistency)手法として実装し、従来のオフラインモデルベース強化学習(MBRL)手法にシームレスに統合する。
MORECは、任意のオフラインMBRLメソッドの遷移フィルタとして使用されるオフラインデータから一般化可能な動的報酬関数を学習する。
合成タスクでは、MORECは強力な一般化能力を持ち、驚くほど遠くの見えない遷移を回復することができる。
D4RLとNeoRLベンチマークの21のオフラインタスクでは、MORECは従来の最先端のパフォーマンスを大幅に改善し、D4RLタスクは4.6%、NeoRLタスクは25.9%である。
特に、MORECは、12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる最初の方法である。
関連論文リスト
- Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。