論文の概要: Reward-Consistent Dynamics Models are Strongly Generalizable for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.05422v1
- Date: Mon, 9 Oct 2023 05:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:29:16.164800
- Title: Reward-Consistent Dynamics Models are Strongly Generalizable for Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習のための逆一貫性ダイナミクスモデル
- Authors: Fan-Ming Luo, Tian Xu, Xingchen Cao, Yang Yu
- Abstract要約: 我々はMOREC (Model-based Offline reinforcement learning with Reward Consistency) 法を実装した。
MORECはオフラインデータから一般化可能な動的報酬関数を学習する。
12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 11.781281131497959
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning a precise dynamics model can be crucial for offline reinforcement
learning, which, unfortunately, has been found to be quite challenging.
Dynamics models that are learned by fitting historical transitions often
struggle to generalize to unseen transitions. In this study, we identify a
hidden but pivotal factor termed dynamics reward that remains consistent across
transitions, offering a pathway to better generalization. Therefore, we propose
the idea of reward-consistent dynamics models: any trajectory generated by the
dynamics model should maximize the dynamics reward derived from the data. We
implement this idea as the MOREC (Model-based Offline reinforcement learning
with Reward Consistency) method, which can be seamlessly integrated into
previous offline model-based reinforcement learning (MBRL) methods. MOREC
learns a generalizable dynamics reward function from offline data, which is
subsequently employed as a transition filter in any offline MBRL method: when
generating transitions, the dynamics model generates a batch of transitions and
selects the one with the highest dynamics reward value. On a synthetic task, we
visualize that MOREC has a strong generalization ability and can surprisingly
recover some distant unseen transitions. On 21 offline tasks in D4RL and NeoRL
benchmarks, MOREC improves the previous state-of-the-art performance by a
significant margin, i.e., 4.6% on D4RL tasks and 25.9% on NeoRL tasks. Notably,
MOREC is the first method that can achieve above 95% online RL performance in 6
out of 12 D4RL tasks and 3 out of 9 NeoRL tasks.
- Abstract(参考訳): 正確なダイナミックスモデルを学習することは、オフラインの強化学習に不可欠であり、残念なことに、非常に難しいことが判明した。
歴史的遷移を適合させることで学習されるダイナミクスモデルは、しばしば目に見えない遷移に一般化するのに苦労する。
本研究では,遷移をまたがって一貫したダイナミクス報酬という,隠されているが重要な要素を同定し,より一般化するための経路を提供する。
そこで本研究では,力学モデルによって生成された任意の軌道は,データから得られる力学報酬を最大化するべきである。
この考え方をMOREC(Model-based Offline reinforcement learning with Reward Consistency)手法として実装し、従来のオフラインモデルベース強化学習(MBRL)手法にシームレスに統合する。
MORECは、任意のオフラインMBRLメソッドの遷移フィルタとして使用されるオフラインデータから一般化可能な動的報酬関数を学習する。
合成タスクでは、MORECは強力な一般化能力を持ち、驚くほど遠くの見えない遷移を回復することができる。
D4RLとNeoRLベンチマークの21のオフラインタスクでは、MORECは従来の最先端のパフォーマンスを大幅に改善し、D4RLタスクは4.6%、NeoRLタスクは25.9%である。
特に、MORECは、12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる最初の方法である。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning [6.345851712811528]
本稿では,長期タスク性能を向上させる新しいモデルベースオフラインRL手法であるLow expectile Q-learning(LEQ)を提案する。
実験の結果,LEQ は従来のモデルベースオフライン RL 手法よりも長軸タスクの方が有意に優れていた。
LEQはNeoRLベンチマークとD4RL MuJoCo Gymタスクにおける最先端のモデルベースおよびモデルフリーのオフラインRLメソッドに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-30T13:44:59Z) - Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。
オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。
OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。