論文の概要: Affordance-Guided Reinforcement Learning via Visual Prompting
- arxiv url: http://arxiv.org/abs/2407.10341v1
- Date: Sun, 14 Jul 2024 21:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:40:16.545879
- Title: Affordance-Guided Reinforcement Learning via Visual Prompting
- Title(参考訳): 視覚プロンプティングによる順応型強化学習
- Authors: Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn,
- Abstract要約: 本稿では、視覚言語モデル(VLM)によって形成される報酬について研究し、ロボット学習における報酬の密度を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的RLのサンプル効率を向上させる。
- 参考スコア(独自算出の注目度): 51.361977466993345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as demonstrations or examples of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics. These models can perform visual reasoning in physical contexts and generate coarse robot motions for various manipulation tasks. Motivated by this range of capability, in this work, we propose and study rewards shaped by vision-language models (VLMs). State-of-the-art VLMs have demonstrated an impressive ability to reason about affordances through keypoints in zero-shot, and we leverage this to define dense rewards for robotic learning. On a real-world manipulation task specified by natural language description, we find that these rewards improve the sample efficiency of autonomous RL and enable successful completion of the task in 20K online finetuning steps. Additionally, we demonstrate the robustness of the approach to reductions in the number of in-domain demonstrations used for pretraining, reaching comparable performance in 35K online finetuning steps.
- Abstract(参考訳): 強化学習(RL)を備えたロボットは、報酬信号のみから幅広いスキルを学ぶことができる。
しかし、一般的な操作タスクに対して頑健で高密度な報酬信号を得ることは、依然として課題である。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学ぶために、成功例や失敗例などの重要なデータが必要である。
近年,ロボット工学における大規模マルチモーダル基盤モデルの普及が進んでいる。
これらのモデルは、物理的な文脈で視覚的推論を実行し、様々な操作タスクのための粗いロボットの動きを生成する。
本研究では,視覚言語モデル(VLM)によって形成される報酬を提案し,研究する。
最先端のVLMは、ゼロショットのキーポイントを通じて余裕を推論する印象的な能力を示しており、これを活用して、ロボット学習の深い報酬を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスクの完了を可能にする。
さらに、事前トレーニングに使用するドメイン内デモの数を減らすためのアプローチの堅牢性を実証し、オンラインファインタニングのステップで35Kに匹敵するパフォーマンスを達成した。
関連論文リスト
- Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z) - Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。
本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。
本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文 参考訳(メタデータ) (2021-07-21T17:59:34Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。