論文の概要: ViTALS: Vision Transformer for Action Localization in Surgical Nephrectomy
- arxiv url: http://arxiv.org/abs/2405.02571v1
- Date: Sat, 4 May 2024 05:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 19:30:33.315667
- Title: ViTALS: Vision Transformer for Action Localization in Surgical Nephrectomy
- Title(参考訳): ViTALS: 外科的腎摘出術における行動局在化のための視覚変換器
- Authors: Soumyadeep Chandra, Sayeed Shafayet Chowdhury, Courtney Yong, Chandru P. Sundaram, Kaushik Roy,
- Abstract要約: UroSliceと呼ばれる新しい腎摘出術のデータセットを紹介した。
これらのビデオからアクションローカライズを行うために,ViTALSと呼ばれる新しいモデルを提案する。
本モデルでは,階層的拡張時間的畳み込み層と層間残差接続を組み込んで,より微細な時間的相関と粗い粒度を捉える。
- 参考スコア(独自算出の注目度): 7.145773305697571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical action localization is a challenging computer vision problem. While it has promising applications including automated training of surgery procedures, surgical workflow optimization, etc., appropriate model design is pivotal to accomplishing this task. Moreover, the lack of suitable medical datasets adds an additional layer of complexity. To that effect, we introduce a new complex dataset of nephrectomy surgeries called UroSlice. To perform the action localization from these videos, we propose a novel model termed as `ViTALS' (Vision Transformer for Action Localization in Surgical Nephrectomy). Our model incorporates hierarchical dilated temporal convolution layers and inter-layer residual connections to capture the temporal correlations at finer as well as coarser granularities. The proposed approach achieves state-of-the-art performance on Cholec80 and UroSlice datasets (89.8% and 66.1% accuracy, respectively), validating its effectiveness.
- Abstract(参考訳): 手術行動のローカライゼーションはコンピュータビジョンの問題である。
手術手順の自動訓練や外科的ワークフロー最適化など,有望な応用が期待できるが,この課題を達成するためには適切なモデル設計が不可欠である。
さらに、適切な医療データセットの欠如により、さらなる複雑さがもたらされる。
そこで我々はUroSliceと呼ばれる腎摘出手術の複雑なデータセットを新たに導入した。
これらのビデオからアクションローカライゼーションを行うために,手術腎手術におけるアクションローカライゼーションのためのビジョントランスフォーマー(VitalS)と呼ばれる新しいモデルを提案する。
本モデルでは,階層的拡張時間的畳み込み層と層間残差接続を組み込んで,より微細な時間的相関と粗い粒度を捉える。
提案手法は,Colec80データセットとUroSliceデータセット(それぞれ89.8%と66.1%の精度)の最先端性能を実現し,その有効性を検証する。
関連論文リスト
- Automated Surgical Skill Assessment in Endoscopic Pituitary Surgery using Real-time Instrument Tracking on a High-fidelity Bench-top Phantom [9.41936397281689]
外科的スキルの改善は一般的に患者の成績の改善に関連しているが、評価は主観的であり、労働集約的である。
内視鏡下垂体手術の鼻相を模範として,シミュレートされた手術に焦点を当てた新しい公開データセットが導入された。
多層パーセプトロンは87%の精度で手術技量(初心者または専門家)を予測し、「可視時間測定のための全手術時間の割合」は高度な手術技量と相関した。
論文 参考訳(メタデータ) (2024-09-25T15:27:44Z) - Intraoperative Registration by Cross-Modal Inverse Neural Rendering [61.687068931599846]
クロスモーダル逆ニューラルレンダリングによる神経外科手術における術中3D/2Dレジストレーションのための新しいアプローチを提案する。
本手法では,暗黙の神経表現を2つの構成要素に分離し,術前および術中における解剖学的構造について検討した。
臨床症例の振り返りデータを用いて本法の有効性を検証し,現在の登録基準を満たした状態での最先端の検査成績を示した。
論文 参考訳(メタデータ) (2024-09-18T13:40:59Z) - Efficient Deformable Tissue Reconstruction via Orthogonal Neural Plane [58.871015937204255]
変形性組織を再建するための高速直交平面(Fast Orthogonal Plane)を導入する。
我々は外科手術を4Dボリュームとして概念化し、それらをニューラルネットワークからなる静的および動的フィールドに分解する。
この分解により4次元空間が増加し、メモリ使用量が減少し、最適化が高速化される。
論文 参考訳(メタデータ) (2023-12-23T13:27:50Z) - Phase-Specific Augmented Reality Guidance for Microscopic Cataract
Surgery Using Long-Short Spatiotemporal Aggregation Transformer [14.568834378003707]
乳化白内障手術(英: Phaemulsification cataract surgery, PCS)は、外科顕微鏡を用いた外科手術である。
PCS誘導システムは、手術用顕微鏡映像から貴重な情報を抽出し、熟練度を高める。
既存のPCSガイダンスシステムでは、位相特異なガイダンスに悩まされ、冗長な視覚情報に繋がる。
本稿では,認識された手術段階に対応するAR情報を提供する,新しい位相特異的拡張現実(AR)誘導システムを提案する。
論文 参考訳(メタデータ) (2023-09-11T02:56:56Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - E-DSSR: Efficient Dynamic Surgical Scene Reconstruction with
Transformer-based Stereoscopic Depth Perception [15.927060244702686]
28 fpsの高ダイナミックな手術シーンに対して,効率的な再建パイプラインを提案する。
具体的には,効率的な深度推定のための変圧器を用いた立体視深度知覚を設計する。
提案したパイプラインを,公開Hamlyn Centre内視鏡ビデオデータセットと社内のDaVinciロボット手術データセットの2つのデータセットで評価した。
論文 参考訳(メタデータ) (2021-07-01T05:57:41Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。