論文の概要: World Models for General Surgical Grasping
- arxiv url: http://arxiv.org/abs/2405.17940v1
- Date: Tue, 28 May 2024 08:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:37:52.928225
- Title: World Models for General Surgical Grasping
- Title(参考訳): 外科手術における世界モデル
- Authors: Hongbin Lin, Bin Li, Chun Wai Wong, Juan Rojas, Xiangyu Chu, Kwok Wai Samuel Au,
- Abstract要約: 我々は,世界モデルに基づく深層強化学習フレームワーク"Grasp Anything for Surgery"(GAS)を提案する。
外科的把握のためのピクセルレベルのビジュモータポリシーを学習し,汎用性とロバスト性の両方を向上する。
また,グリップ対象物体がグリップから落下した後に,背景変動,目標乱れ,カメラポーズ変動,運動制御誤差,画像ノイズ,再彫刻を含む6つの条件に対して,大きなロバスト性を示す。
- 参考スコア(独自算出の注目度): 7.884835348797252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent vision control systems for surgical robots should adapt to unknown and diverse objects while being robust to system disturbances. Previous methods did not meet these requirements due to mainly relying on pose estimation and feature tracking. We propose a world-model-based deep reinforcement learning framework "Grasp Anything for Surgery" (GAS), that learns a pixel-level visuomotor policy for surgical grasping, enhancing both generality and robustness. In particular, a novel method is proposed to estimate the values and uncertainties of depth pixels for a rigid-link object's inaccurate region based on the empirical prior of the object's size; both depth and mask images of task objects are encoded to a single compact 3-channel image (size: 64x64x3) by dynamically zooming in the mask regions, minimizing the information loss. The learned controller's effectiveness is extensively evaluated in simulation and in a real robot. Our learned visuomotor policy handles: i) unseen objects, including 5 types of target grasping objects and a robot gripper, in unstructured real-world surgery environments, and ii) disturbances in perception and control. Note that we are the first work to achieve a unified surgical control system that grasps diverse surgical objects using different robot grippers on real robots in complex surgery scenes (average success rate: 69%). Our system also demonstrates significant robustness across 6 conditions including background variation, target disturbance, camera pose variation, kinematic control error, image noise, and re-grasping after the gripped target object drops from the gripper. Videos and codes can be found on our project page: https://linhongbin.github.io/gas/.
- Abstract(参考訳): 手術ロボットのためのインテリジェントな視覚制御システムは、システム障害に対して堅牢でありながら、未知の多様な物体に適応するべきである。
従来の手法は、主にポーズ推定と特徴追跡に依存するため、これらの要件を満たしていなかった。
本稿では,外科的把握のためのピクセルレベルのビジュモータポリシを学習し,汎用性とロバスト性を両立させる,世界モデルに基づく深部強化学習フレームワーク"Grasp Anything for Surgery"(GAS)を提案する。
特に,厳密なリンク対象の未正確な領域の深度画素の値と不確かさを,被写体の大きさの実証値に基づいて推定する手法を提案し,マスク領域を動的にズームすることで,タスク対象の深度画像とマスク画像の両方を単一のコンパクトな3チャンネル画像(サイズ:64x64x3)に符号化し,情報損失を最小限に抑える。
学習したコントローラの有効性はシミュレーションや実際のロボットで広く評価される。
私たちの学習した自警団の政策は以下のとおりである。
一 現実世界の非構造的な手術環境において、5種類の目標把握物及びロボット握手を含む未確認物
二 知覚及び制御の障害
複雑な手術シーン(平均成功率69%)における実際のロボット上の異なるロボットグリップを用いて、多様な手術対象を把握できる統一的な手術制御システムを実現するための最初の試みである。
また,グリップ対象物体がグリップから落下した後に,背景変動,目標乱れ,カメラポーズ変動,運動制御誤差,画像ノイズ,再彫刻を含む6つの条件に対して,大きなロバスト性を示す。
ビデオとコードは、プロジェクトのページで見ることができる。
関連論文リスト
- Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation [41.19650341188898]
我々は,20種類の操作タスクを備えた新しいシミュレーションベンチマークであるThe COLOSSEUMを提案する。
我々は,5つの最先端操作モデルを比較し,これらの摂動因子のうち,成功率が30~50%程度低下していることを明らかにする。
対象物や対象物の色,照明条件の変化が,モデル性能を最も低下させる摂動であることを確認した。
論文 参考訳(メタデータ) (2024-02-13T03:25:33Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Learning Extrinsic Dexterity with Parameterized Manipulation Primitives [8.7221770019454]
我々は、オブジェクトのポーズを変えるために環境を利用する一連のアクションを学習する。
我々のアプローチは、オブジェクトとグリップと環境の間の相互作用を利用してオブジェクトの状態を制御することができる。
拘束されたテーブルトップワークスペースから様々な重量,形状,摩擦特性の箱状物体を選別する手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T21:28:23Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - The Treachery of Images: Bayesian Scene Keypoints for Deep Policy
Learning in Robotic Manipulation [28.30126109684119]
スケール不変なキーポイントを時間とともに追跡するベイズ的手法であるBASKを提案する。
我々は,手首カメラの観察から多目的ロボット操作の課題を学習するために,本手法を用いた。
論文 参考訳(メタデータ) (2023-05-08T14:05:38Z) - DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal
Human Demonstrations [51.87067543670535]
本研究では,少数の人間によるデモンストレーションを行い,見えない物体のポーズを学習するロボット学習システムを提案する。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
我々のデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる。
論文 参考訳(メタデータ) (2022-09-28T17:51:49Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - Real-Time Object Detection and Recognition on Low-Compute Humanoid
Robots using Deep Learning [0.12599533416395764]
本稿では、複数の低計算NAOロボットがカメラビューにおける物体のリアルタイム検出、認識、位置決めを行うことを可能にする新しいアーキテクチャについて述べる。
オブジェクト検出と局所化のためのアルゴリズムは,複数のシナリオにおける屋内実験に基づくYOLOv3の実証的な修正である。
このアーキテクチャは、カメラフィードからニューラルネットにリアルタイムフレームを供給し、その結果を使ってロボットを誘導する効果的なエンドツーエンドパイプラインも備えている。
論文 参考訳(メタデータ) (2020-01-20T05:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。