論文の概要: Surgical Instruction Generation with Transformers
- arxiv url: http://arxiv.org/abs/2107.06964v1
- Date: Wed, 14 Jul 2021 19:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:02:39.139512
- Title: Surgical Instruction Generation with Transformers
- Title(参考訳): 変圧器を用いた手術指導生成
- Authors: Jinglu Zhang, Yinyu Nie, Jian Chang, and Jian Jun Zhang
- Abstract要約: 本稿では,自己クリティカル強化学習を用いたトランスフォーマーバックボンドエンコーダデコーダネットワークを導入し,手術画像から指示を生成する。
各種医療分野の290の手順を含むDAISIデータセットに対して,本手法の有効性を評価した。
- 参考スコア(独自算出の注目度): 6.97857490403095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic surgical instruction generation is a prerequisite towards
intra-operative context-aware surgical assistance. However, generating
instructions from surgical scenes is challenging, as it requires jointly
understanding the surgical activity of current view and modelling relationships
between visual information and textual description. Inspired by the neural
machine translation and imaging captioning tasks in open domain, we introduce a
transformer-backboned encoder-decoder network with self-critical reinforcement
learning to generate instructions from surgical images. We evaluate the
effectiveness of our method on DAISI dataset, which includes 290 procedures
from various medical disciplines. Our approach outperforms the existing
baseline over all caption evaluation metrics. The results demonstrate the
benefits of the encoder-decoder structure backboned by transformer in handling
multimodal context.
- Abstract(参考訳): 手術指導の自動生成は術中コンテクスト認識手術支援の前提条件である。
しかし, 手術場面からの指示の生成には, 現在の視点の手術活動の理解と, 視覚情報とテキスト記述の関係のモデル化が不可欠である。
オープンドメインのニューラルマシン翻訳と画像キャプションタスクに触発されて,自己クリティカル強化学習によるトランスフォーマーバックボンドエンコーダデコーダネットワークを導入し,手術画像からの指示を生成する。
各種医療分野の290の手順を含むDAISIデータセットに対して,本手法の有効性を評価した。
提案手法は,すべてのキャプション評価指標に対して,既存のベースラインを上回ります。
その結果,マルチモーダルコンテキストの処理においてトランスフォーマによってバックボーン化されるエンコーダ・デコーダ構造の利点が示された。
関連論文リスト
- Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement [7.150163844454341]
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
論文 参考訳(メタデータ) (2024-10-23T07:58:47Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase
Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。
我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。
データセットとアノテーションは、論文の受理時に公開される。
論文 参考訳(メタデータ) (2023-12-11T10:53:05Z) - Event Recognition in Laparoscopic Gynecology Videos with Hybrid
Transformers [4.371909393924804]
腹腔鏡下ビデオにおいて,関連するイベント認識に適したデータセットを提案する。
本データセットは,術中大きな課題と術後合併症に関連する重要な事象に対するアノテーションを含む。
腹腔鏡下手術ビデオにおける4つの特定の事象を認識するために,ハイブリッドトランスフォーマーアーキテクチャと,カスタマイズしたトレーニング推論フレームワークを併用して評価を行った。
論文 参考訳(メタデータ) (2023-12-01T13:57:29Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z) - Live image-based neurosurgical guidance and roadmap generation using
unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。
生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。
166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文 参考訳(メタデータ) (2023-03-31T12:52:24Z) - Surgical Phase Recognition in Laparoscopic Cholecystectomy [57.929132269036245]
本稿では,2段階推論パイプラインのキャリブレーションされた信頼度スコアを利用するTransformerに基づく手法を提案する。
提案手法はColec80データセットのベースラインモデルよりも優れており,様々なアクションセグメンテーション手法に適用できる。
論文 参考訳(メタデータ) (2022-06-14T22:55:31Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。