論文の概要: Disentangled Planning and Control in Vision Based Robotics via Reward
Machines
- arxiv url: http://arxiv.org/abs/2012.14464v1
- Date: Mon, 28 Dec 2020 19:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 10:58:57.198494
- Title: Disentangled Planning and Control in Vision Based Robotics via Reward
Machines
- Title(参考訳): 報奨機による視覚ロボットの絡み合った計画と制御
- Authors: Alberto Camacho, Jacob Varley, Deepali Jain, Atil Iscen and Dmitry
Kalashnikov
- Abstract要約: ロボットタスクのビジョンベースのポリシーの学習速度を向上させるために、Deep Q-Learning Agent with a Reward Machine (DQRM)を増強します。
報酬機(英: reward machine、RM)は、タスクを個別の計画グラフに分解し、エージェントに報酬関数を付与してタスク完了に向けて誘導する有限状態機械である。
- 参考スコア(独自算出の注目度): 13.486750561133634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we augment a Deep Q-Learning agent with a Reward Machine (DQRM)
to increase speed of learning vision-based policies for robot tasks, and
overcome some of the limitations of DQN that prevent it from converging to
good-quality policies. A reward machine (RM) is a finite state machine that
decomposes a task into a discrete planning graph and equips the agent with a
reward function to guide it toward task completion. The reward machine can be
used for both reward shaping, and informing the policy what abstract state it
is currently at. An abstract state is a high level simplification of the
current state, defined in terms of task relevant features. These two
supervisory signals of reward shaping and knowledge of current abstract state
coming from the reward machine complement each other and can both be used to
improve policy performance as demonstrated on several vision based robotic pick
and place tasks. Particularly for vision based robotics applications, it is
often easier to build a reward machine than to try and get a policy to learn
the task without this structure.
- Abstract(参考訳): 本研究では,ロボットタスクの視覚ベースのポリシを学習する速度を高めるために,Deep Q-Learning AgentをReward Machine (DQRM)で強化し,DQNの制約を克服し,高品質なポリシに収束することを防ぐ。
報酬機(英: reward machine、RM)は、タスクを個別の計画グラフに分解し、エージェントに報酬関数を付与してタスク完了に向けて誘導する有限状態機械である。
報酬マシンは、報酬のシェーピングと、現在どのような抽象状態にあるかをポリシーに通知するために使用できる。
抽象状態は、タスクに関連する機能の観点から定義された、現在の状態の高レベルな単純化である。
これら2つの報酬形成信号と報奨機からの現在の抽象状態の知識は相互に補完し、複数の視覚に基づくロボットピック・アンド・プレイス・タスクで示されるように、ポリシー性能の向上に利用することができる。
特にビジョンベースのロボティクスアプリケーションでは、この構造を使わずにタスクを学習するためのポリシーを得るよりも、報酬機を構築する方が容易であることが多い。
関連論文リスト
- RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation [52.14638923430338]
本稿では,タスクの重要段階においてロボットのポーズを捉えた割安条件の条件付けについて提案する。
RT-Affordanceという手法は階層モデルであり,まずタスク言語が与えられた割当計画を提案する。
RT-Affordanceが既存手法の性能を50%以上上回る新しいタスク群を示す。
論文 参考訳(メタデータ) (2024-11-05T01:02:51Z) - Maximally Permissive Reward Machines [8.425937972214667]
目的を達成するための部分順序計画のセットに基づいて,報酬機を合成する新しい手法を提案する。
このような「最大許容」報酬機を用いた学習は、単一の計画に基づいてRMを用いた学習よりも高い報酬をもたらすことを証明した。
論文 参考訳(メタデータ) (2024-08-15T09:59:26Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Model-Free Reinforcement Learning for Symbolic Automata-encoded
Objectives [0.0]
強化学習(Reinforcement Learning, RL)は、不確実な環境でのロボット経路計画において一般的な手法である。
悪い設計の報酬は、最大報酬を得るが、望ましいタスクの目的を満たすことができず、安全でないポリシーにつながる可能性がある。
本稿では,記号オートマトンを用いた形式仕様を提案する。
論文 参考訳(メタデータ) (2022-02-04T21:54:36Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。