論文の概要: Multimodal and self-supervised representation learning for automatic
gesture recognition in surgical robotics
- arxiv url: http://arxiv.org/abs/2011.00168v1
- Date: Sat, 31 Oct 2020 02:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 04:37:44.622932
- Title: Multimodal and self-supervised representation learning for automatic
gesture recognition in surgical robotics
- Title(参考訳): 手術ロボットにおける自動ジェスチャー認識のためのマルチモーダル・自己教師型表現学習
- Authors: Aniruddha Tamhane, Jie Ying Wu, Mathias Unberath
- Abstract要約: 我々は,ビデオとキネマティックスから外科的ジェスチャーの表現を学習する,自己指導型マルチモーダル表現学習パラダイムを開発した。
手術ビデオから表現を符号化し,それらを復号してキネマティックスを生成するエンコーダ・デコーダネットワーク構成を用いる。
- 参考スコア(独自算出の注目度): 8.393303296475924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised, multi-modal learning has been successful in holistic
representation of complex scenarios. This can be useful to consolidate
information from multiple modalities which have multiple, versatile uses. Its
application in surgical robotics can lead to simultaneously developing a
generalised machine understanding of the surgical process and reduce the
dependency on quality, expert annotations which are generally difficult to
obtain. We develop a self-supervised, multi-modal representation learning
paradigm that learns representations for surgical gestures from video and
kinematics. We use an encoder-decoder network configuration that encodes
representations from surgical videos and decodes them to yield kinematics. We
quantitatively demonstrate the efficacy of our learnt representations for
gesture recognition (with accuracy between 69.6 % and 77.8 %), transfer
learning across multiple tasks (with accuracy between 44.6 % and 64.8 %) and
surgeon skill classification (with accuracy between 76.8 % and 81.2 %).
Further, we qualitatively demonstrate that our self-supervised representations
cluster in semantically meaningful properties (surgeon skill and gestures).
- Abstract(参考訳): 自己指導型マルチモーダル学習は複雑なシナリオの全体的表現に成功している。
これは、複数の多様な用途を持つ複数のモダリティからの情報を統合するのに有用である。
手術ロボティクスにおけるその応用は、手術プロセスの一般化された機械的理解を同時に開発し、一般的に入手が困難である品質や専門家のアノテーションへの依存を減らすことに繋がる。
ビデオやキネマティックスから手術用ジェスチャの表現を学習する,自己教師付きマルチモーダル表現学習パラダイムを開発した。
手術ビデオからの表現をエンコードし,それらをデコードしてキネマティクスを生成するエンコーダ・デコーダネットワーク構成を用いる。
ジェスチャー認識における学習表現の有効性(精度69.6 %から77.8 %)、複数のタスク(精度44.6 %から64.8 %)、外科医のスキル分類(精度76.8 %から81.2 %)を定量的に示す。
さらに,自己指導型表現が意味的に意味のある特性(サージョンスキルとジェスチャー)をクラスタ化することを示す。
関連論文リスト
- Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Free Lunch for Surgical Video Understanding by Distilling
Self-Supervisions [40.26183297128028]
外科的ビデオ理解のための強力な,かつ効率的なセルフスーパービジョンフレームワークを提案する。
私たちの重要な洞察は、大規模なジェネリックデータセットでトレーニングされた、公開可能なモデルから知識を抽出することです。
当社のフレームワークは,低データ体制下では魅力的な優位性を示している。
論文 参考訳(メタデータ) (2022-05-19T02:46:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。