Fugu-MT 論文翻訳(概要): Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks with Surgical Robot

論文の概要: Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks with Surgical Robot

arxiv url: http://arxiv.org/abs/2307.16503v1
Date: Mon, 31 Jul 2023 08:55:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 15:19:31.014553
Title: Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks with Surgical Robot
Title（参考訳）: 手術ロボットを用いた長軸タスクのポリシー学習のための値インフォームドスキルチェイン
Authors: Tao Huang, Kai Chen, Wang Wei, Jianan Li, Yonghao Long, Qi Dou
Abstract要約: 強化学習は、長年にわたる手術ロボットの課題の解決に苦戦している。近年の手法では, スキルチェーンによってこの問題に対処しようとする。本稿では,新しい強化学習フレームワークであるバリューインフォームド・スキル・チェーン(ViSkill)を紹介する。
参考スコア（独自算出の注目度）: 27.4555065056978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning is still struggling with solving long-horizon surgical robot tasks which involve multiple steps over an extended duration of time due to the policy exploration challenge. Recent methods try to tackle this problem by skill chaining, in which the long-horizon task is decomposed into multiple subtasks for easing the exploration burden and subtask policies are temporally connected to complete the whole long-horizon task. However, smoothly connecting all subtask policies is difficult for surgical robot scenarios. Not all states are equally suitable for connecting two adjacent subtasks. An undesired terminate state of the previous subtask would make the current subtask policy unstable and result in a failed execution. In this work, we introduce value-informed skill chaining (ViSkill), a novel reinforcement learning framework for long-horizon surgical robot tasks. The core idea is to distinguish which terminal state is suitable for starting all the following subtask policies. To achieve this target, we introduce a state value function that estimates the expected success probability of the entire task given a state. Based on this value function, a chaining policy is learned to instruct subtask policies to terminate at the state with the highest value so that all subsequent policies are more likely to be connected for accomplishing the task. We demonstrate the effectiveness of our method on three complex surgical robot tasks from SurRoL, a comprehensive surgical simulation platform, achieving high task success rates and execution efficiency. Code is available at $\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$.
Abstract（参考訳）: 強化学習は、政策探索の課題により、長期にわたる複数のステップを含む長い水平手術ロボットタスクの解決に苦慮している。近年の手法では,ロングホライゾンタスクを複数のサブタスクに分解して探索負担を軽減し,サブタスクポリシーを時間的に結び付けてロングホライゾンタスク全体を完遂する手法が提案されている。しかし,手術ロボットのシナリオでは,すべてのサブタスクポリシをスムーズに接続することは困難である。すべての状態が隣接する2つのサブタスクを接続するのに等しく適しているわけではない。以前のサブタスクの望ましくない終了状態は、現在のサブタスクポリシーを不安定にし、実行が失敗する。本研究では,長期手術ロボットタスクのための新しい強化学習フレームワークである価値インフォームドスキルチェーン(ViSkill)を導入する。中心となる考え方は、以下のすべてのサブタスクポリシーを開始するのに適した端末状態を特定することである。この目標を達成するために、状態が与えられたタスク全体の成功確率を推定する状態値関数を導入する。この値関数に基づいて、チェーンポリシーが学習され、サブタスクポリシーに最高値の状態を終了させるように指示され、その後のすべてのポリシーがタスクを達成するために接続される傾向が高まる。総合的な手術シミュレーションプラットフォームであるSurRoLの3つの複雑な手術ロボット作業に対する本手法の有効性を実証し,高い作業成功率と実行効率を実現する。コードは$\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$で入手できる。

関連論文リスト

Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文参考訳（メタデータ） (2024-10-01T19:49:56Z)
COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2024-09-23T15:53:41Z)
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation [28.37417344133933]
本稿では、長期タスク目標を達成するための複数の厳密なポリシーをチェーンする汎用システムであるSequential Dexterityを提案する。システムの中核は、連鎖の成功率を高めるためのサブ政治を段階的に微調整する移行実現機能である。本システムでは,新規な物体形状への一般化能力を実証し,デキスタラスハンドを備えた実世界ロボットへのゼロショット移動を可能にする。
論文参考訳（メタデータ） (2023-09-02T16:55:48Z)
Continual Task Allocation in Meta-Policy Network via Sparse Prompting [42.386912478509814]
タスクの連続を継続的に学習することで、一般化可能なメタ政治の訓練方法を示す。スパース・プロンプティング(CoTASP)による連続タスク割当(Continual Task Allocation)"で対処する。実験では、CoTASPは過去のタスクの経験を保存または再生することなく、有望な可塑性-安定性トレードオフを達成する。
論文参考訳（メタデータ） (2023-05-29T03:36:32Z)
Robust Subtask Learning for Compositional Generalization [20.54144051436337]
我々は、どんなタスクでも実行できるように、サブタスクポリシーをトレーニングする問題に焦点を合わせます。我々は、平均的なケースのパフォーマンスとは対照的に、すべてのタスクで最悪のケースのパフォーマンスを最大化することを目指している。
論文参考訳（メタデータ） (2023-02-06T18:19:25Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization [65.09725599705493]
過大な初期状態分布を伴わずに複数のポリシーをチェーンすることを提案する。家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを確立した。
論文参考訳（メタデータ） (2021-11-15T18:59:03Z)
Reactive Long Horizon Task Execution via Visual Skill and Precondition Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文参考訳（メタデータ） (2020-11-17T15:24:01Z)
Hierarchical Reinforcement Learning as a Model of Human Task Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。このモデルは、タスクインターリービングの既知の経験的効果を再現する。その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文参考訳（メタデータ） (2020-01-04T17:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。