論文の概要: Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks
with Surgical Robot
- arxiv url: http://arxiv.org/abs/2307.16503v1
- Date: Mon, 31 Jul 2023 08:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:19:31.014553
- Title: Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks
with Surgical Robot
- Title(参考訳): 手術ロボットを用いた長軸タスクのポリシー学習のための値インフォームドスキルチェイン
- Authors: Tao Huang, Kai Chen, Wang Wei, Jianan Li, Yonghao Long, Qi Dou
- Abstract要約: 強化学習は、長年にわたる手術ロボットの課題の解決に苦戦している。
近年の手法では, スキルチェーンによってこの問題に対処しようとする。
本稿では,新しい強化学習フレームワークであるバリューインフォームド・スキル・チェーン(ViSkill)を紹介する。
- 参考スコア(独自算出の注目度): 27.4555065056978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is still struggling with solving long-horizon surgical
robot tasks which involve multiple steps over an extended duration of time due
to the policy exploration challenge. Recent methods try to tackle this problem
by skill chaining, in which the long-horizon task is decomposed into multiple
subtasks for easing the exploration burden and subtask policies are temporally
connected to complete the whole long-horizon task. However, smoothly connecting
all subtask policies is difficult for surgical robot scenarios. Not all states
are equally suitable for connecting two adjacent subtasks. An undesired
terminate state of the previous subtask would make the current subtask policy
unstable and result in a failed execution. In this work, we introduce
value-informed skill chaining (ViSkill), a novel reinforcement learning
framework for long-horizon surgical robot tasks. The core idea is to
distinguish which terminal state is suitable for starting all the following
subtask policies. To achieve this target, we introduce a state value function
that estimates the expected success probability of the entire task given a
state. Based on this value function, a chaining policy is learned to instruct
subtask policies to terminate at the state with the highest value so that all
subsequent policies are more likely to be connected for accomplishing the task.
We demonstrate the effectiveness of our method on three complex surgical robot
tasks from SurRoL, a comprehensive surgical simulation platform, achieving high
task success rates and execution efficiency. Code is available at
$\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$.
- Abstract(参考訳): 強化学習は、政策探索の課題により、長期にわたる複数のステップを含む長い水平手術ロボットタスクの解決に苦慮している。
近年の手法では,ロングホライゾンタスクを複数のサブタスクに分解して探索負担を軽減し,サブタスクポリシーを時間的に結び付けてロングホライゾンタスク全体を完遂する手法が提案されている。
しかし,手術ロボットのシナリオでは,すべてのサブタスクポリシをスムーズに接続することは困難である。
すべての状態が隣接する2つのサブタスクを接続するのに等しく適しているわけではない。
以前のサブタスクの望ましくない終了状態は、現在のサブタスクポリシーを不安定にし、実行が失敗する。
本研究では,長期手術ロボットタスクのための新しい強化学習フレームワークである価値インフォームドスキルチェーン(ViSkill)を導入する。
中心となる考え方は、以下のすべてのサブタスクポリシーを開始するのに適した端末状態を特定することである。
この目標を達成するために、状態が与えられたタスク全体の成功確率を推定する状態値関数を導入する。
この値関数に基づいて、チェーンポリシーが学習され、サブタスクポリシーに最高値の状態を終了させるように指示され、その後のすべてのポリシーがタスクを達成するために接続される傾向が高まる。
総合的な手術シミュレーションプラットフォームであるSurRoLの3つの複雑な手術ロボット作業に対する本手法の有効性を実証し,高い作業成功率と実行効率を実現する。
コードは$\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$で入手できる。
関連論文リスト
- Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon
Manipulation [28.37417344133933]
本稿では、長期タスク目標を達成するための複数の厳密なポリシーをチェーンする汎用システムであるSequential Dexterityを提案する。
システムの中核は、連鎖の成功率を高めるためのサブ政治を段階的に微調整する移行実現機能である。
本システムでは,新規な物体形状への一般化能力を実証し,デキスタラスハンドを備えた実世界ロボットへのゼロショット移動を可能にする。
論文 参考訳(メタデータ) (2023-09-02T16:55:48Z) - Continual Task Allocation in Meta-Policy Network via Sparse Prompting [42.386912478509814]
タスクの連続を継続的に学習することで、一般化可能なメタ政治の訓練方法を示す。
スパース・プロンプティング(CoTASP)による連続タスク割当(Continual Task Allocation)"で対処する。
実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性トレードオフを達成する。
論文 参考訳(メタデータ) (2023-05-29T03:36:32Z) - Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。
我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文 参考訳(メタデータ) (2023-02-06T18:19:25Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Guided Imitation of Task and Motion Planning [9.072286070266092]
我々は,タスクと行動計画の成果を模倣する政策を訓練する。
これにより、感覚データから多段階のタスクを達成できるフィードフォワードポリシが生成される。
7-DoF関節制御によるロボット操作タスクでは、部分的に訓練されたポリシーにより、計画に必要な時間を最大2.6倍に短縮する。
論文 参考訳(メタデータ) (2021-12-06T22:22:37Z) - Adversarial Skill Chaining for Long-Horizon Robot Manipulation via
Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。
家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。
提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-11-15T18:59:03Z) - Efficiently Identifying Task Groupings for Multi-Task Learning [55.80489920205404]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
マルチタスク学習モデルにおいて、どのタスクを一緒にトレーニングすべきかを選択するアプローチを提案する。
本手法は,全タスクを協調学習し,タスクの勾配が他のタスクの損失に影響を及ぼす影響を定量化する。
論文 参考訳(メタデータ) (2021-09-10T02:01:43Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。