Fugu-MT 論文翻訳(概要): Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning

論文の概要: Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2310.05422v1
Date: Mon, 9 Oct 2023 05:37:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 07:29:16.164800
Title: Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための逆一貫性ダイナミクスモデル
Authors: Fan-Ming Luo, Tian Xu, Xingchen Cao, Yang Yu
Abstract要約: 我々はMOREC (Model-based Offline reinforcement learning with Reward Consistency) 法を実装した。 MORECはオフラインデータから一般化可能な動的報酬関数を学習する。 12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる。
参考スコア（独自算出の注目度）: 11.781281131497959
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Learning a precise dynamics model can be crucial for offline reinforcement learning, which, unfortunately, has been found to be quite challenging. Dynamics models that are learned by fitting historical transitions often struggle to generalize to unseen transitions. In this study, we identify a hidden but pivotal factor termed dynamics reward that remains consistent across transitions, offering a pathway to better generalization. Therefore, we propose the idea of reward-consistent dynamics models: any trajectory generated by the dynamics model should maximize the dynamics reward derived from the data. We implement this idea as the MOREC (Model-based Offline reinforcement learning with Reward Consistency) method, which can be seamlessly integrated into previous offline model-based reinforcement learning (MBRL) methods. MOREC learns a generalizable dynamics reward function from offline data, which is subsequently employed as a transition filter in any offline MBRL method: when generating transitions, the dynamics model generates a batch of transitions and selects the one with the highest dynamics reward value. On a synthetic task, we visualize that MOREC has a strong generalization ability and can surprisingly recover some distant unseen transitions. On 21 offline tasks in D4RL and NeoRL benchmarks, MOREC improves the previous state-of-the-art performance by a significant margin, i.e., 4.6% on D4RL tasks and 25.9% on NeoRL tasks. Notably, MOREC is the first method that can achieve above 95% online RL performance in 6 out of 12 D4RL tasks and 3 out of 9 NeoRL tasks.
Abstract（参考訳）: 正確なダイナミックスモデルを学習することは、オフラインの強化学習に不可欠であり、残念なことに、非常に難しいことが判明した。歴史的遷移を適合させることで学習されるダイナミクスモデルは、しばしば目に見えない遷移に一般化するのに苦労する。本研究では,遷移をまたがって一貫したダイナミクス報酬という,隠されているが重要な要素を同定し,より一般化するための経路を提供する。そこで本研究では,力学モデルによって生成された任意の軌道は,データから得られる力学報酬を最大化するべきである。この考え方をMOREC(Model-based Offline reinforcement learning with Reward Consistency)手法として実装し、従来のオフラインモデルベース強化学習(MBRL)手法にシームレスに統合する。 MORECは、任意のオフラインMBRLメソッドの遷移フィルタとして使用されるオフラインデータから一般化可能な動的報酬関数を学習する。合成タスクでは、MORECは強力な一般化能力を持ち、驚くほど遠くの見えない遷移を回復することができる。 D4RLとNeoRLベンチマークの21のオフラインタスクでは、MORECは従来の最先端のパフォーマンスを大幅に改善し、D4RLタスクは4.6%、NeoRLタスクは25.9%である。特に、MORECは、12のD4RLタスクのうち6つ、9のNeoRLタスクのうち3つで95%以上のオンラインRLパフォーマンスを達成することができる最初の方法である。

関連論文リスト

Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文参考訳（メタデータ） (2024-12-24T05:25:21Z)
Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文参考訳（メタデータ） (2024-12-15T17:33:56Z)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-10-28T05:29:38Z)
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文参考訳（メタデータ） (2024-10-01T10:25:03Z)
Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning [6.345851712811528]
本稿では,長期タスク性能を向上させる新しいモデルベースオフラインRL手法であるLow expectile Q-learning(LEQ)を提案する。実験の結果,LEQ は従来のモデルベースオフライン RL 手法よりも長軸タスクの方が有意に優れていた。 LEQはNeoRLベンチマークとD4RL MuJoCo Gymタスクにおける最先端のモデルベースおよびモデルフリーのオフラインRLメソッドに匹敵するパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-06-30T13:44:59Z)
Offline Trajectory Generalization for Offline Reinforcement Learning [43.89740983387144]
オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。 OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。
論文参考訳（メタデータ） (2024-04-16T08:48:46Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Learning a model is paramount for sample efficiency in reinforcement learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文参考訳（メタデータ） (2023-02-14T16:14:39Z)
Offline Q-Learning on Diverse Multi-Task Data Both Scales And Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文参考訳（メタデータ） (2022-11-28T08:56:42Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文参考訳（メタデータ） (2020-10-26T03:20:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。