論文の概要: CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data
- arxiv url: http://arxiv.org/abs/2203.09475v1
- Date: Tue, 15 Mar 2022 22:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:58:46.942907
- Title: CaRTS: Causality-driven Robot Tool Segmentation from Vision and
Kinematics Data
- Title(参考訳): CaRTS:視覚と運動データからの因果性駆動型ロボットツールセグメンテーション
- Authors: Hao Ding, Jintan Zhang, Peter Kazanzides, Jieying Wu, and Mathias
Unberath
- Abstract要約: ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックなどの下流アプリケーションを可能にする。
ディープラーニングの導入により、楽器のセグメンテーションを画像から直接、あるいは画像から直接解決する多くの方法が提示された。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
- 参考スコア(独自算出の注目度): 11.92904350972493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based segmentation of the robotic tool during robot-assisted surgery
enables downstream applications, such as augmented reality feedback, while
allowing for inaccuracies in robot kinematics. With the introduction of deep
learning, many methods were presented to solve instrument segmentation directly
and solely from images. While these approaches made remarkable progress on
benchmark datasets, fundamental challenges pertaining to their robustness
remain. We present CaRTS, a causality-driven robot tool segmentation algorithm,
that is designed based on a complementary causal model of the robot tool
segmentation task. Rather than directly inferring segmentation masks from
observed images, CaRTS iteratively aligns tool models with image observations
by updating the initially incorrect robot kinematic parameters through forward
kinematics and differentiable rendering to optimize image feature similarity
end-to-end. We benchmark CaRTS with competing techniques on both synthetic as
well as real data from the dVRK, generated in precisely controlled scenarios to
allow for counterfactual synthesis. On training-domain test data, CaRTS
achieves a Dice score of 93.4 that is preserved well (Dice score of 91.8) when
tested on counterfactual altered test data, exhibiting low brightness, smoke,
blood, and altered background patterns. This compares favorably to Dice scores
of 95.0 and 62.8, respectively, of a purely image-based method trained and
tested on the same data. Future work will involve accelerating CaRTS to achieve
video framerate and estimating the impact occlusion has in practice. Despite
these limitations, our results are promising: In addition to achieving high
segmentation accuracy, CaRTS provides estimates of the true robot kinematics,
which may benefit applications such as force estimation.
- Abstract(参考訳): ロボット支援手術中の視覚に基づくロボットツールのセグメンテーションは、拡張現実フィードバックのような下流の応用を可能にし、ロボットキネマティクスの不正確さを許容する。
深層学習の導入により,楽器のセグメンテーションを直接的に,画像から直接解決する手法が多数提示された。
これらのアプローチはベンチマークデータセットに顕著な進歩をもたらしたが、その堅牢性に関する根本的な課題は残っている。
本稿では,ロボットツールセグメンテーションタスクの相補的因果モデルに基づいて設計した因果性駆動型ロボットツールセグメンテーションアルゴリズムCaRTSを提案する。
観察された画像から直接セグメンテーションマスクを推測する代わりに、CaRTSは、最初の不正確なロボット運動パラメータを前方運動学と微分レンダリングによって更新し、画像特徴の類似性をエンドツーエンドに最適化することで、ツールモデルを画像観察と反復的に一致させる。
我々は,dvrkの合成と実データの両方で競合する手法でカートをベンチマークし,正確な制御シナリオで生成し,反事実合成を可能にした。
訓練領域テストデータにおいて、カートは、逆相変化試験データでテストした場合によく保存される93.4のサイススコア(ディススコア91.8)を達成し、低輝度、煙、血液、背景パターンを呈する。
これは、同じデータでトレーニングされテストされた純粋な画像ベースの方法の、それぞれ95.0と62.8のdiceスコアと比較するのが好ましい。
今後の作業では、ビデオのフレームレートを達成するためにCaRTSを加速し、実際に発生する影響を推定する。
これらの制限にもかかわらず、結果は有望である:高いセグメンテーション精度を達成することに加えて、カートは真のロボットキネマティクスの見積もりを提供する。
関連論文リスト
- Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin-based Scene Representation [14.108636146958007]
ビデオから直接外科的フェーズを予測するエンドツーエンドのニューラルネットワークは、ベンチマークで優れたパフォーマンスを示している。
我々のゴールは、デジタルツイン(DT)パラダイムを活用して、手術ビデオの変動に対するモデルロバスト性を改善することである。
このアプローチは、信頼性の高い低レベルのシーン理解を保証する、最近のビジョン基盤モデルを活用する。
論文 参考訳(メタデータ) (2024-10-26T00:49:06Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - A Kinematic Bottleneck Approach For Pose Regression of Flexible Surgical
Instruments directly from Images [17.32860829016479]
ロボットから提供される運動情報のみをトレーニング時に活用し、自己監督画像に基づく手法を提案する。
時間を要する手動アノテーションの導入を避けるため、問題は自動エンコーダとして定式化される。
本手法の検証は, 柔軟ロボット内視鏡を用いて, 半合成, 幻, および生体内データセットを用いて行った。
論文 参考訳(メタデータ) (2021-02-28T18:41:18Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。