Fugu-MT 論文翻訳(概要): GP-VLS: A general-purpose vision language model for surgery

論文の概要: GP-VLS: A general-purpose vision language model for surgery

arxiv url: http://arxiv.org/abs/2407.19305v1
Date: Sat, 27 Jul 2024 17:27:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 18:51:52.305148
Title: GP-VLS: A general-purpose vision language model for surgery
Title（参考訳）: GP-VLS:手術のための汎用視覚言語モデル
Authors: Samuel Schmidgall, Joseph Cho, Cyril Zakka, William Hiesinger,
Abstract要約: GP-VLS(GP-VLS)は、医学的・外科的知識と視覚的シーン理解を統合した、手術のための汎用視覚言語モデルである。 GP-VLSを訓練するために, 位相認識やツール識別といったタスクに対して, 医療知識, 外科用教科書, 視覚言語対にまたがる6つの新しいデータセットを開発した。 GP-VLSは外科的視覚言語タスクにおける既存のオープンソースモデルやクローズドソースモデルよりも有意に優れており,SurgiQualベンチマークの精度は8～21%向上している。
参考スコア（独自算出の注目度）: 0.5249805590164902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Surgery requires comprehensive medical knowledge, visual assessment skills, and procedural expertise. While recent surgical AI models have focused on solving task-specific problems, there is a need for general-purpose systems that can understand surgical scenes and interact through natural language. This paper introduces GP-VLS, a general-purpose vision language model for surgery that integrates medical and surgical knowledge with visual scene understanding. For comprehensively evaluating general-purpose surgical models, we propose SurgiQual, which evaluates across medical and surgical knowledge benchmarks as well as surgical vision-language questions. To train GP-VLS, we develop six new datasets spanning medical knowledge, surgical textbooks, and vision-language pairs for tasks like phase recognition and tool identification. We show that GP-VLS significantly outperforms existing open- and closed-source models on surgical vision-language tasks, with 8-21% improvements in accuracy across SurgiQual benchmarks. GP-VLS also demonstrates strong performance on medical and surgical knowledge tests compared to open-source alternatives. Overall, GP-VLS provides an open-source foundation for developing AI assistants to support surgeons across a wide range of tasks and scenarios.
Abstract（参考訳）: 手術には包括的医療知識、視覚的評価スキル、手続き的専門知識が必要である。最近の外科的AIモデルは、タスク固有の問題を解決することに重点を置いているが、手術シーンを理解し、自然言語を介して対話できる汎用システムが必要である。本稿では,医用および外科用知識と視覚的シーン理解を統合した汎用視覚言語モデルGP-VLSを紹介する。汎用的な手術モデルを総合的に評価するために,医学的および外科的知識ベンチマークおよび外科的視覚言語質問に対する評価を行うSurgiQualを提案する。 GP-VLSを訓練するために, 位相認識やツール識別といったタスクに対して, 医療知識, 外科用教科書, 視覚言語対にまたがる6つの新しいデータセットを開発した。 GP-VLSは外科的視覚言語タスクにおける既存のオープンソースモデルやクローズドソースモデルよりも有意に優れており,SurgiQualベンチマークの精度は8～21%向上している。 GP-VLSは、オープンソースの代替技術と比較して、医学的および外科的知識テストに強い性能を示す。 GP-VLSは、幅広いタスクやシナリオで外科医をサポートするAIアシスタントを開発するための、オープンソース基盤を提供する。

関連論文リスト

How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment [69.13598421861654]
本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
論文参考訳（メタデータ） (2025-11-03T17:28:54Z)
SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study [0.6120768859742071]
本研究は,視覚言語モデル(VLM)の内視鏡的課題に対する能力を評価するための大規模な研究である。さまざまな最先端モデル、複数の外科的データセット、広範囲な人間の参照アノテーションを用いて、3つの重要な研究課題に対処する。以上の結果から,VLMはオブジェクトカウントやローカライゼーションなどの基本的な外科的知覚タスクを,一般的なドメインタスクに匹敵するパフォーマンスレベルで効果的に行うことができることがわかった。
論文参考訳（メタデータ） (2025-06-06T16:53:12Z)
SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文参考訳（メタデータ） (2025-06-03T07:44:41Z)
Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery [17.728772280544444]
ロボット手術シナリオにおけるDeepSeekモデルの対話機能について検討する。実験により,DeepSeek-VL2は,既存の汎用多目的大言語モデルと比較して,複雑な理解タスクにおいて優れた性能を発揮することが示された。 DeepSeek-V3は純粋に言語モデルであるが,画像トークンを直接入力すると,単一文QAタスクのパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2025-03-29T15:48:46Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons [29.783300422432763]
外科医の意図を正確に理解できるVersatile Surgery Assistant (VS-Assistant)を提案する。我々は,VS-Assistantが外科的意図を理解できるように,外科的ケア・チューニング戦略を考案した。
論文参考訳（メタデータ） (2024-05-14T02:05:36Z)
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T08:38:27Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
CAT-ViL: Co-Attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery [14.52406034300867]
手術用視覚質問定位回答システム(VQLA)は、医療学生やジュニア外科医が記録された手術ビデオから学び、理解するのに役立ちます。手術シナリオにおけるVQLAに対するCAT-ViL(Co-Attention gaTed Vision-Language)を組み込んだエンドツーエンドトランスフォーマを提案する。提案手法は,外科的シーン理解のための有望なソリューションを提供し,外科的訓練のための人工知能(AI)ベースのVQLAシステムにおける第一歩を開拓する。
論文参考訳（メタデータ） (2023-07-11T11:35:40Z)
Surgical-VQLA: Transformer with Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery [18.248882845789353]
本研究では,ロボット支援型手術シーンと記録映像からのアクティビティ理解を容易にするための手術質問応答システムを開発した。既存のVQA手法の多くは、視覚的特徴を抽出し、答え生成のための質問の埋め込みテキストと融合するために、オブジェクト検出器と領域ベースの特徴抽出器を必要とする。そこで我々は,ロボット手術における視覚的質問の局所化-回答(Surgical-VQLA)を提案し,回答予測中に特定の手術領域を局所化する。
論文参考訳（メタデータ） (2023-05-19T14:13:47Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文参考訳（メタデータ） (2022-09-15T08:00:01Z)
Surgical-VQA: Visual Question Answering in Surgical Scenes using Transformer [15.490603884631764]
専門医は、しばしば臨床および学術的な作業量で過負荷を受ける。第2の意見として外科的VQAシステムを持つことは、バックアップとして機能し、医療専門家の負担を軽減することができる。本研究は,手術シーンに基づく外科手術のアンケートに答える手術-VQAタスクを設計する。
論文参考訳（メタデータ） (2022-06-22T13:21:31Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。