論文の概要: VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons
- arxiv url: http://arxiv.org/abs/2405.08272v1
- Date: Tue, 14 May 2024 02:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 15:17:48.354728
- Title: VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons
- Title(参考訳): VS-Assistant:外科医の需要に関するVersatile surgery Assistant
- Authors: Zhen Chen, Xingjian Luo, Jinlin Wu, Danny T. M. Chan, Zhen Lei, Jinqiao Wang, Sebastien Ourselin, Hongbin Liu,
- Abstract要約: 外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。
我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
- 参考スコア(独自算出の注目度): 29.783300422432763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surgical intervention is crucial to patient healthcare, and many studies have developed advanced algorithms to provide understanding and decision-making assistance for surgeons. Despite great progress, these algorithms are developed for a single specific task and scenario, and in practice require the manual combination of different functions, thus limiting the applicability. Thus, an intelligent and versatile surgical assistant is expected to accurately understand the surgeon's intentions and accordingly conduct the specific tasks to support the surgical process. In this work, by leveraging advanced multimodal large language models (MLLMs), we propose a Versatile Surgery Assistant (VS-Assistant) that can accurately understand the surgeon's intention and complete a series of surgical understanding tasks, e.g., surgical scene analysis, surgical instrument detection, and segmentation on demand. Specifically, to achieve superior surgical multimodal understanding, we devise a mixture of projectors (MOP) module to align the surgical MLLM in VS-Assistant to balance the natural and surgical knowledge. Moreover, we devise a surgical Function-Calling Tuning strategy to enable the VS-Assistant to understand surgical intentions, and thus make a series of surgical function calls on demand to meet the needs of the surgeons. Extensive experiments on neurosurgery data confirm that our VS-Assistant can understand the surgeon's intention more accurately than the existing MLLM, resulting in overwhelming performance in textual analysis and visual tasks. Source code and models will be made public.
- Abstract(参考訳): 外科的介入は患者医療にとって不可欠であり、多くの研究が、外科医に対する理解と意思決定の支援を提供するための高度なアルゴリズムを開発した。
大きな進歩にもかかわらず、これらのアルゴリズムは1つの特定のタスクとシナリオのために開発され、実際には異なる関数を手動で組み合わせる必要があり、適用性が制限される。
このように、インテリジェントで汎用的な外科アシスタントは、外科医の意図を正確に理解し、手術プロセスを支援するための特定のタスクを実行することが期待されている。
本研究では,高度なマルチモーダル大言語モデル (MLLM) を活用することで,外科医の意図を正確に理解し,外科的シーン分析,外科的機器検出,オンデマンドのセグメンテーションといった一連の外科的理解作業を完了できるVersatile Surgery Assistant (VS-Assistant) を提案する。
具体的には,より優れた外科的マルチモーダル理解を実現するために,VS-Assistantの外科的MLLMを整列させるプロジェクター(MOP)モジュールを考案し,外科的知識と外科的知識のバランスをとる。
さらに,VS-Assistantが外科的意図を理解できるように,外科的機能ケア戦略を考案し,外科医のニーズを満たすための一連の外科的機能呼び出しを行う。
脳神経外科データに対する広範囲な実験により、VS-Assistantは既存のMLLMよりも外科医の意図を正確に理解でき、テキスト分析や視覚タスクにおいて圧倒的なパフォーマンスをもたらすことが確認された。
ソースコードとモデルは公開されます。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - GP-VLS: A general-purpose vision language model for surgery [0.5249805590164902]
GP-VLSは手術のための汎用視覚言語モデルである。
医学的および外科的知識と視覚的シーン理解を統合している。
GP-VLSは,手術用視覚言語タスクにおいて,オープンソースモデルやクローズドソースモデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-07-27T17:27:05Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Toward a Surgeon-in-the-Loop Ophthalmic Robotic Apprentice using Reinforcement and Imitation Learning [18.72371138886818]
眼内白内障手術における外科医中心の自律エージェントに対する画像誘導アプローチを提案する。
外科医の行動と嗜好をトレーニングプロセスに統合することにより、ロボットは個々の外科医のユニークなテクニックを暗黙的に学習し、適応することができる。
論文 参考訳(メタデータ) (2023-11-29T15:00:06Z) - SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene
Reconstruction by Neural Radiance Field (NeRF) [4.740415113160021]
本稿では,Segment Anything Model(SAM)とNeRF技術を組み合わせたSAMSNeRFという新しい手法を提案する。
内視鏡下外科的画像を用いた実験の結果,高忠実度ダイナミックな手術シーンの再構築に成功していることが示された。
論文 参考訳(メタデータ) (2023-08-22T20:31:00Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual
Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。
手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。
提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文 参考訳(メタデータ) (2023-07-11T11:35:40Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。