論文の概要: Towards A Unified Agent with Foundation Models
- arxiv url: http://arxiv.org/abs/2307.09668v1
- Date: Tue, 18 Jul 2023 22:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:55:55.280087
- Title: Towards A Unified Agent with Foundation Models
- Title(参考訳): ファウンデーションモデルを用いた統一エージェントを目指して
- Authors: Norman Di Palo, Arunkumar Byravan, Leonard Hasenclever, Markus
Wulfmeier, Nicolas Heess, Martin Riedmiller
- Abstract要約: 強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
- 参考スコア(独自算出の注目度): 18.558328028366816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models and Vision Language Models have recently demonstrated
unprecedented capabilities in terms of understanding human intentions,
reasoning, scene understanding, and planning-like behaviour, in text form,
among many others. In this work, we investigate how to embed and leverage such
abilities in Reinforcement Learning (RL) agents. We design a framework that
uses language as the core reasoning tool, exploring how this enables an agent
to tackle a series of fundamental RL challenges, such as efficient exploration,
reusing experience data, scheduling skills, and learning from observations,
which traditionally require separate, vertically designed algorithms. We test
our method on a sparse-reward simulated robotic manipulation environment, where
a robot needs to stack a set of objects. We demonstrate substantial performance
improvements over baselines in exploration efficiency and ability to reuse data
from offline datasets, and illustrate how to reuse learned skills to solve
novel tasks or imitate videos of human experts.
- Abstract(参考訳): 言語モデルと視覚言語モデルは最近、人間の意図、推論、シーン理解、計画的行動などについてテキスト形式で理解するという点で、前例のない能力を示した。
本研究では,Reinforcement Learning (RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
私たちは言語を推論ツールの中心として使用するフレームワークを設計し、エージェントが効率的な探索、経験データの再使用、スケジューリングスキル、そして伝統的に垂直に設計されたアルゴリズムを必要とする観察からの学習といった一連の基本的なrl課題にどのように対処できるかを探求します。
本研究では,ロボットが物体群を積み重ねる必要のあるロボット操作環境において,この手法をテストした。
我々は、オフラインデータセットからデータを再利用する探索効率と能力において、ベースラインよりも実質的なパフォーマンス改善を示し、学習したスキルを再利用して新しいタスクを解決したり、人間専門家の動画を模倣する方法について説明する。
関連論文リスト
- Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。