論文の概要: Foundation Reinforcement Learning: towards Embodied Generalist Agents
with Foundation Prior Assistance
- arxiv url: http://arxiv.org/abs/2310.02635v1
- Date: Wed, 4 Oct 2023 07:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:11:12.981340
- Title: Foundation Reinforcement Learning: towards Embodied Generalist Agents
with Foundation Prior Assistance
- Title(参考訳): ファウンデーション強化学習--ファウンデーション事前支援による具体化されたジェネラリストエージェントを目指して
- Authors: Weirui Ye, Yunsheng Zhang, Mengchen Wang, Shengjie Wang, Xianfan Gu,
Pieter Abbeel, Yang Gao
- Abstract要約: 本稿では, 基礎政策, 価値, 成功報酬からなる, 直感的で効果的な基礎前提の組を提案する。
私たちは私たちのフレームワークを Foundation Reinforcement Learning (FRL) と名付けています。
- 参考スコア(独自算出の注目度): 60.81279671950221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, people have shown that large-scale pre-training from internet-scale
data is the key to building generalist models, as witnessed in NLP. To build
embodied generalist agents, we and many other researchers hypothesize that such
foundation prior is also an indispensable component. However, it is unclear
what is the proper concrete form to represent those embodied foundation priors
and how they should be used in the downstream task. In this paper, we propose
an intuitive and effective set of embodied priors that consist of foundation
policy, value, and success reward. The proposed priors are based on the
goal-conditioned MDP. To verify their effectiveness, we instantiate an
actor-critic method assisted by the priors, called Foundation Actor-Critic
(FAC). We name our framework as Foundation Reinforcement Learning (FRL), since
it completely relies on embodied foundation priors to explore, learn and
reinforce. The benefits of FRL are threefold. (1) Sample efficient. With
foundation priors, FAC learns significantly faster than traditional RL. Our
evaluation on the Meta-World has proved that FAC can achieve 100% success rates
for 7/8 tasks under less than 200k frames, which outperforms the baseline
method with careful manual-designed rewards under 1M frames. (2) Robust to
noisy priors. Our method tolerates the unavoidable noise in embodied foundation
models. We show that FAC works well even under heavy noise or quantization
errors. (3) Minimal human intervention: FAC completely learns from the
foundation priors, without the need of human-specified dense reward, or
providing teleoperated demos. Thus, FAC can be easily scaled up. We believe our
FRL framework could enable the future robot to autonomously explore and learn
without human intervention in the physical world. In summary, our proposed FRL
is a novel and powerful learning paradigm, towards achieving embodied
generalist agents.
- Abstract(参考訳): 最近、nlpで見られるように、インターネット規模のデータからの大規模事前トレーニングがジェネラリストモデル構築の鍵であることが示された。
具体的ジェネラリストエージェントを構築するために、私たちや他の多くの研究者は、そのような基礎が必要不可欠な要素でもあると仮定した。
しかし、それらの具体化された基礎の優先順位を表す適切な具体的形式と、下流タスクでどのように使用するべきかは明らかでない。
本稿では,基本方針,価値,成功報酬から構成される,直感的で効果的な具体化前の組を提案する。
提案手法は, 目標条件付きMDPに基づく。
その効果を検証するために,前者が支援するアクタ-クリティック法をファウンデーション・アクタ-クリティック (fac) と呼ぶ。
私たちは私たちのフレームワークを Foundation Reinforcement Learning (FRL) と名付けています。
FRLの利点は3倍である。
1) 効率的なサンプル。
ファンデーションの先行で、FACは従来のRLよりもかなり速く学習する。
メタワールドの評価により、facは200k以下のフレームで7/8のタスクで100%の成功率を達成できることが証明された。
(2)うるさい事前処理に頑健である。
本手法は,組込み基礎モデルにおける避けられないノイズを許容する。
重騒音や量子化誤差下においてもFACは良好に動作することを示す。
(3) 最小限の人的介入: FACは、人為的な厳密な報酬や遠隔操作によるデモを必要とせず、基礎から完全に学習する。
これにより、FACを容易にスケールアップすることができる。
我々のFRLフレームワークは、未来のロボットが物理的世界への人間の介入なしに自律的に探索し、学習することができると信じています。
まとめると、提案するFRLは、具体的汎用エージェントの実現に向けて、新しく強力な学習パラダイムである。
関連論文リスト
- RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - FedMS: Federated Learning with Mixture of Sparsely Activated Foundations
Models [11.362085734837217]
我々はFedMSと呼ばれる新しい2段階のフェデレーション学習アルゴリズムを提案する。
グローバルエキスパートは第一段階で訓練され、ローカルエキスパートは第二段階で訓練され、より良いパーソナライズを提供する。
我々はFedMSの有効性を検証するために広範囲な実験を行い、その結果、FedMSは他のSOTAベースラインを55.25%まで上回る結果となった。
論文 参考訳(メタデータ) (2023-12-26T07:40:26Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Local Environment Poisoning Attacks on Federated Reinforcement Learning [1.5020330976600738]
フェデレートラーニング(FL)は、従来の強化ラーニング(RL)タスクを解決する一般的なツールとなっている。
フェデレートされたメカニズムは、トレーニングされたポリシーを誤解させる可能性のある悪意のあるエージェントによる毒殺システムを公開する。
本稿では、FRL中毒を最適化問題として特徴付けるための一般的な枠組みを提案し、政策に基づくFRLに適用可能な中毒プロトコルを設計する。
論文 参考訳(メタデータ) (2023-03-05T17:44:23Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。