論文の概要: Offline Actor-Critic Reinforcement Learning Scales to Large Models
- arxiv url: http://arxiv.org/abs/2402.05546v1
- Date: Thu, 8 Feb 2024 10:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:41:17.053104
- Title: Offline Actor-Critic Reinforcement Learning Scales to Large Models
- Title(参考訳): 大規模モデルに対するオフラインアクター・クリティカル強化学習尺度
- Authors: Jost Tobias Springenberg, Abbas Abdolmaleki, Jingwei Zhang, Oliver
Groth, Michael Bloesch, Thomas Lampe, Philemon Brakel, Sarah Bechtle, Steven
Kapturowski, Roland Hafner, Nicolas Heess, Martin Riedmiller
- Abstract要約: オフラインアクター批判強化学習は,トランスフォーマーなどの大規模モデルにも拡張可能であることを示す。
オフラインアクター批判アルゴリズムは、マルチタスクトレーニングにおいて、強力な、教師付き、行動的クローンベースラインよりも優れていることが判明した。
- 参考スコア(独自算出の注目度): 22.274209713532844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that offline actor-critic reinforcement learning can scale to large
models - such as transformers - and follows similar scaling laws as supervised
learning. We find that offline actor-critic algorithms can outperform strong,
supervised, behavioral cloning baselines for multi-task training on a large
dataset containing both sub-optimal and expert behavior on 132 continuous
control tasks. We introduce a Perceiver-based actor-critic model and elucidate
the key model features needed to make offline RL work with self- and
cross-attention modules. Overall, we find that: i) simple offline actor critic
algorithms are a natural choice for gradually moving away from the currently
predominant paradigm of behavioral cloning, and ii) via offline RL it is
possible to learn multi-task policies that master many domains simultaneously,
including real robotics tasks, from sub-optimal demonstrations or
self-generated data.
- Abstract(参考訳): オフラインアクター批判強化学習は,トランスフォーマーなどの大規模モデルにスケール可能であることを示し,教師あり学習と同様のスケーリング法則に従う。
オフラインのアクタ-クリティックアルゴリズムは,132の連続制御タスクにおいて,サブ最適化とエキスパート動作の両方を含む大規模データセット上でのマルチタスクトレーニングのための強固で教師付き,行動クローンベースラインを上回ることができる。
我々はPerceiverベースのアクター批判モデルを導入し、オフラインRLを自己および横断的モジュールで動作させるために必要な重要なモデル機能を明らかにする。
全体としては:
一 簡易オフラインアクター評論家アルゴリズムは、行動クローンの現在支配的なパラダイムから徐々に離れていくための自然な選択である。
ii) オフラインRLにより,複数ドメインを同時にマスターするマルチタスクポリシーを,準最適実験や自己生成データから学習することができる。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Efficient Robotic Manipulation Through Offline-to-Online Reinforcement
Learning and Goal-Aware State Information [5.604859261995801]
本稿では、遷移性能低下を解消するオフラインからオフラインまでの統一的なRLフレームワークを提案する。
目標認識状態情報をRLエージェントに導入することにより,タスクの複雑性を大幅に低減し,政策学習を加速することができる。
本フレームワークは,複数のロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。
論文 参考訳(メタデータ) (2021-10-21T05:34:25Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。