論文の概要: Affordance-Guided Reinforcement Learning via Visual Prompting
- arxiv url: http://arxiv.org/abs/2407.10341v1
- Date: Sun, 14 Jul 2024 21:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 16:40:16.545879
- Title: Affordance-Guided Reinforcement Learning via Visual Prompting
- Title(参考訳): 視覚プロンプティングによる順応型強化学習
- Authors: Olivia Y. Lee, Annie Xie, Kuan Fang, Karl Pertsch, Chelsea Finn,
- Abstract要約: 本稿では、視覚言語モデル(VLM)によって形成される報酬について研究し、ロボット学習における報酬の密度を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的RLのサンプル効率を向上させる。
- 参考スコア(独自算出の注目度): 51.361977466993345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots equipped with reinforcement learning (RL) have the potential to learn a wide range of skills solely from a reward signal. However, obtaining a robust and dense reward signal for general manipulation tasks remains a challenge. Existing learning-based approaches require significant data, such as demonstrations or examples of success and failure, to learn task-specific reward functions. Recently, there is also a growing adoption of large multi-modal foundation models for robotics. These models can perform visual reasoning in physical contexts and generate coarse robot motions for various manipulation tasks. Motivated by this range of capability, in this work, we propose and study rewards shaped by vision-language models (VLMs). State-of-the-art VLMs have demonstrated an impressive ability to reason about affordances through keypoints in zero-shot, and we leverage this to define dense rewards for robotic learning. On a real-world manipulation task specified by natural language description, we find that these rewards improve the sample efficiency of autonomous RL and enable successful completion of the task in 20K online finetuning steps. Additionally, we demonstrate the robustness of the approach to reductions in the number of in-domain demonstrations used for pretraining, reaching comparable performance in 35K online finetuning steps.
- Abstract(参考訳): 強化学習(RL)を備えたロボットは、報酬信号のみから幅広いスキルを学ぶことができる。
しかし、一般的な操作タスクに対して頑健で高密度な報酬信号を得ることは、依然として課題である。
既存の学習ベースのアプローチでは、タスク固有の報酬関数を学ぶために、成功例や失敗例などの重要なデータが必要である。
近年,ロボット工学における大規模マルチモーダル基盤モデルの普及が進んでいる。
これらのモデルは、物理的な文脈で視覚的推論を実行し、様々な操作タスクのための粗いロボットの動きを生成する。
本研究では,視覚言語モデル(VLM)によって形成される報酬を提案し,研究する。
最先端のVLMは、ゼロショットのキーポイントを通じて余裕を推論する印象的な能力を示しており、これを活用して、ロボット学習の深い報酬を定義する。
自然言語記述によって指定された実世界の操作タスクにおいて、これらの報酬は自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスクの完了を可能にする。
さらに、事前トレーニングに使用するドメイン内デモの数を減らすためのアプローチの堅牢性を実証し、オンラインファインタニングのステップで35Kに匹敵するパフォーマンスを達成した。
関連論文リスト
- Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。