論文の概要: Recognition and Prediction of Surgical Gestures and Trajectories Using
Transformer Models in Robot-Assisted Surgery
- arxiv url: http://arxiv.org/abs/2212.01683v1
- Date: Sat, 3 Dec 2022 20:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 18:18:50.089122
- Title: Recognition and Prediction of Surgical Gestures and Trajectories Using
Transformer Models in Robot-Assisted Surgery
- Title(参考訳): ロボット支援手術におけるトランスフォーマーモデルを用いた手術動作の認識と予測
- Authors: Chang Shi, Yi Zheng, Ann Majewicz Fey
- Abstract要約: トランスフォーマーモデルは、自然言語処理(NLP)のために、ワードシーケンスをモデル化するために最初に開発された。
本稿では, ジェスチャー認識, ジェスチャー予測, 軌道予測の3つのタスクに対して, トランスフォーマーモデルを用いた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.719885390990433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical activity recognition and prediction can help provide important
context in many Robot-Assisted Surgery (RAS) applications, for example,
surgical progress monitoring and estimation, surgical skill evaluation, and
shared control strategies during teleoperation. Transformer models were first
developed for Natural Language Processing (NLP) to model word sequences and
soon the method gained popularity for general sequence modeling tasks. In this
paper, we propose the novel use of a Transformer model for three tasks: gesture
recognition, gesture prediction, and trajectory prediction during RAS. We
modify the original Transformer architecture to be able to generate the current
gesture sequence, future gesture sequence, and future trajectory sequence
estimations using only the current kinematic data of the surgical robot
end-effectors. We evaluate our proposed models on the JHU-ISI Gesture and Skill
Assessment Working Set (JIGSAWS) and use Leave-One-User-Out (LOUO)
cross-validation to ensure the generalizability of our results. Our models
achieve up to 89.3\% gesture recognition accuracy, 84.6\% gesture prediction
accuracy (1 second ahead) and 2.71mm trajectory prediction error (1 second
ahead). Our models are comparable to and able to outperform state-of-the-art
methods while using only the kinematic data channel. This approach can enable
near-real time surgical activity recognition and prediction.
- Abstract(参考訳): 手術活動の認識と予測は、遠隔操作中の手術進捗監視と推定、手術スキル評価、共有制御戦略など、多くのロボット支援手術(ras)アプリケーションにおいて重要な文脈を提供する。
トランスフォーマーモデルはまず自然言語処理(NLP)のためにワードシーケンスをモデル化するために開発され、間もなく一般的なシーケンスモデリングタスクで人気を博した。
本稿では, ジェスチャー認識, ジェスチャー予測, 軌道予測の3つのタスクに対して, トランスフォーマーモデルを用いた新しい手法を提案する。
手術ロボットエンドエフェクタの現在の運動データのみを用いて,現在のジェスチャシーケンス,将来のジェスチャシーケンス,将来の軌跡シーケンス推定を生成できるように,元のトランスフォーマーアーキテクチャを変更した。
JHU-ISI Gesture and Skill Assessment Working Set (JIGSAWS) で提案したモデルを評価し、Leave-One-User-Out (LOUO) クロスバリデーションを用いて結果の一般化性を保証する。
我々のモデルは最大89.3\%のジェスチャー認識精度、84.6\%のジェスチャー予測精度(1秒前)、2.71mmの軌道予測誤差(1秒前)を達成する。
我々のモデルは、キネマティックなデータチャネルのみを使用しながら、最先端の手法よりも優れています。
このアプローチは、ほぼリアルタイムの手術活動の認識と予測を可能にする。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data [11.92904350972493]
ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
論文 参考訳(メタデータ) (2022-03-15T22:26:19Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - daVinciNet: Joint Prediction of Motion and Surgical State in
Robot-Assisted Surgery [13.928484202934651]
本稿では,ロボット動作と手術状態予測のためのエンドツーエンドのデュアルタスクモデルdaVinciNetを提案する。
我々のモデルでは、最大93.85%の短期(0.5s)と82.11%の長期(2s)の予測精度、1.07mmの短期および5.62mmの長期軌道予測誤差が達成される。
論文 参考訳(メタデータ) (2020-09-24T20:28:06Z) - Predictive Modeling of Periodic Behavior for Human-Robot Symbiotic
Walking [13.68799310875662]
我々は、インタラクションプリミティブを周期的な運動体制、すなわち歩行に拡張する。
このモデルは、人間の歩行の、データ駆動でカスタマイズされたモデルを学ぶのに特に適していることを示す。
また,ロボット義肢のコントローラーの学習にも,同じフレームワークが利用できることを示す。
論文 参考訳(メタデータ) (2020-05-27T03:30:48Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。