Fugu-MT 論文翻訳(概要): Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance

論文の概要: Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance

arxiv url: http://arxiv.org/abs/2310.02635v1
Date: Wed, 4 Oct 2023 07:56:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 16:11:12.981340
Title: Foundation Reinforcement Learning: towards Embodied Generalist Agents with Foundation Prior Assistance
Title（参考訳）: ファウンデーション強化学習--ファウンデーション事前支援による具体化されたジェネラリストエージェントを目指して
Authors: Weirui Ye, Yunsheng Zhang, Mengchen Wang, Shengjie Wang, Xianfan Gu, Pieter Abbeel, Yang Gao
Abstract要約: 本稿では, 基礎政策, 価値, 成功報酬からなる, 直感的で効果的な基礎前提の組を提案する。私たちは私たちのフレームワークを Foundation Reinforcement Learning (FRL) と名付けています。
参考スコア（独自算出の注目度）: 60.81279671950221
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, people have shown that large-scale pre-training from internet-scale data is the key to building generalist models, as witnessed in NLP. To build embodied generalist agents, we and many other researchers hypothesize that such foundation prior is also an indispensable component. However, it is unclear what is the proper concrete form to represent those embodied foundation priors and how they should be used in the downstream task. In this paper, we propose an intuitive and effective set of embodied priors that consist of foundation policy, value, and success reward. The proposed priors are based on the goal-conditioned MDP. To verify their effectiveness, we instantiate an actor-critic method assisted by the priors, called Foundation Actor-Critic (FAC). We name our framework as Foundation Reinforcement Learning (FRL), since it completely relies on embodied foundation priors to explore, learn and reinforce. The benefits of FRL are threefold. (1) Sample efficient. With foundation priors, FAC learns significantly faster than traditional RL. Our evaluation on the Meta-World has proved that FAC can achieve 100% success rates for 7/8 tasks under less than 200k frames, which outperforms the baseline method with careful manual-designed rewards under 1M frames. (2) Robust to noisy priors. Our method tolerates the unavoidable noise in embodied foundation models. We show that FAC works well even under heavy noise or quantization errors. (3) Minimal human intervention: FAC completely learns from the foundation priors, without the need of human-specified dense reward, or providing teleoperated demos. Thus, FAC can be easily scaled up. We believe our FRL framework could enable the future robot to autonomously explore and learn without human intervention in the physical world. In summary, our proposed FRL is a novel and powerful learning paradigm, towards achieving embodied generalist agents.
Abstract（参考訳）: 最近、nlpで見られるように、インターネット規模のデータからの大規模事前トレーニングがジェネラリストモデル構築の鍵であることが示された。具体的ジェネラリストエージェントを構築するために、私たちや他の多くの研究者は、そのような基礎が必要不可欠な要素でもあると仮定した。しかし、それらの具体化された基礎の優先順位を表す適切な具体的形式と、下流タスクでどのように使用するべきかは明らかでない。本稿では,基本方針,価値,成功報酬から構成される,直感的で効果的な具体化前の組を提案する。提案手法は, 目標条件付きMDPに基づく。その効果を検証するために,前者が支援するアクタ-クリティック法をファウンデーション・アクタ-クリティック (fac) と呼ぶ。私たちは私たちのフレームワークを Foundation Reinforcement Learning (FRL) と名付けています。 FRLの利点は3倍である。 1) 効率的なサンプル。ファンデーションの先行で、FACは従来のRLよりもかなり速く学習する。メタワールドの評価により、facは200k以下のフレームで7/8のタスクで100%の成功率を達成できることが証明された。 (2)うるさい事前処理に頑健である。本手法は,組込み基礎モデルにおける避けられないノイズを許容する。重騒音や量子化誤差下においてもFACは良好に動作することを示す。 (3) 最小限の人的介入: FACは、人為的な厳密な報酬や遠隔操作によるデモを必要とせず、基礎から完全に学習する。これにより、FACを容易にスケールアップすることができる。我々のFRLフレームワークは、未来のロボットが物理的世界への人間の介入なしに自律的に探索し、学習することができると信じています。まとめると、提案するFRLは、具体的汎用エージェントの実現に向けて、新しく強力な学習パラダイムである。

関連論文リスト

MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。 MenTORは3つのシミュレーションベンチマークで最先端の手法を上回り、挑戦的な3つの現実世界のロボット操作タスクで平均83%の成功率を達成した。
論文参考訳（メタデータ） (2024-10-19T04:31:54Z)
PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。 PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文参考訳（メタデータ） (2024-08-07T19:30:08Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-06T23:12:26Z)
Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文参考訳（メタデータ） (2022-03-08T12:44:42Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
Reactive Long Horizon Task Execution via Visual Skill and Precondition Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文参考訳（メタデータ） (2020-11-17T15:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。