論文の概要: Game On: Towards Language Models as RL Experimenters
- arxiv url: http://arxiv.org/abs/2409.03402v1
- Date: Thu, 5 Sep 2024 10:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:00:20.800963
- Title: Game On: Towards Language Models as RL Experimenters
- Title(参考訳): ゲームオン:RL実験者としての言語モデルを目指して
- Authors: Jingwei Zhang, Thomas Lampe, Abbas Abdolmaleki, Jost Tobias Springenberg, Martin Riedmiller,
- Abstract要約: 本稿では,一般的な強化学習実験ワークフローの一部を自動化するエージェントアーキテクチャを提案する。
我々は、言語条件のアクター・クリティカルアルゴリズムにスキルのカリキュラムを提供するために、追加の微調整をせずに、標準のジェミニモデルを使用する。
成長するスキルのライブラリを構築し、それらのスキルの訓練の進捗を判断するシステムの能力のさらなる検証も、有望な結果を示している。
- 参考スコア(独自算出の注目度): 8.131696370980379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an agent architecture that automates parts of the common reinforcement learning experiment workflow, to enable automated mastery of control domains for embodied agents. To do so, it leverages a VLM to perform some of the capabilities normally required of a human experimenter, including the monitoring and analysis of experiment progress, the proposition of new tasks based on past successes and failures of the agent, decomposing tasks into a sequence of subtasks (skills), and retrieval of the skill to execute - enabling our system to build automated curricula for learning. We believe this is one of the first proposals for a system that leverages a VLM throughout the full experiment cycle of reinforcement learning. We provide a first prototype of this system, and examine the feasibility of current models and techniques for the desired level of automation. For this, we use a standard Gemini model, without additional fine-tuning, to provide a curriculum of skills to a language-conditioned Actor-Critic algorithm, in order to steer data collection so as to aid learning new skills. Data collected in this way is shown to be useful for learning and iteratively improving control policies in a robotics domain. Additional examination of the ability of the system to build a growing library of skills, and to judge the progress of the training of those skills, also shows promising results, suggesting that the proposed architecture provides a potential recipe for fully automated mastery of tasks and domains for embodied agents.
- Abstract(参考訳): 本稿では,一般的な強化学習実験ワークフローの一部を自動化するエージェントアーキテクチャを提案する。
実験の進捗の監視と分析、エージェントの過去の成功と失敗に基づく新しいタスクの提案、タスクを一連のサブタスク(スキル)に分解すること、そして実行するスキルの検索など、人間の実験者が通常必要とするいくつかの機能を実行するためにVLMを利用する。
我々は、強化学習の完全な実験サイクルを通じて、VLMを活用するシステムに関する最初の提案の1つだと信じている。
このシステムの最初のプロトタイプを提供し、現在のモデルと技術が望まれる自動化レベルの実現可能性について検討する。
そこで我々は,新たなスキルの学習を支援するため,言語条件のアクタ・クライブアルゴリズムに対して,標準的なGeminiモデルを用いてスキルのカリキュラムを提供する。
このように収集されたデータは、ロボット分野における制御ポリシーを学習し、反復的に改善するのに有用である。
スキルの育成ライブラリを構築し,それらのスキルの訓練の進捗を判断する能力のさらなる検証も有望な結果を示し,提案アーキテクチャは,実施エージェントのためのタスクやドメインの完全自動熟達のための潜在的レシピを提供することを示唆している。
関連論文リスト
- RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - A Reinforcement Learning Approach for Robotic Unloading from Visual
Observations [1.420663986837751]
本研究では,視覚的観察からロボットを降ろす問題に焦点をあてる。
本稿では,ハイレベルな意思決定モジュールと古典的な動作制御を組み合わせた階層型コントローラ構造を提案する。
本実験は,これらの要素が学習性能の向上に重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2023-09-12T22:22:28Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。