論文の概要: Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2504.02799v1
- Date: Thu, 03 Apr 2025 17:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:56.460579
- Title: Systematic Evaluation of Large Vision-Language Models for Surgical Artificial Intelligence
- Title(参考訳): 外科的人工知能のための大規模視覚言語モデルの体系的評価
- Authors: Anita Rau, Mark Endo, Josiah Aklilu, Jaewoo Heo, Khaled Saab, Alberto Paderno, Jeffrey Jopling, F. Christopher Holsinger, Serena Yeung-Levy,
- Abstract要約: 大規模ビジョンランゲージモデルは、AI駆動の画像理解のための新しいパラダイムを提供する。
この柔軟性は、専門家がアノテートしたデータが不足している医療全体において特に有望である。
本稿では,外科的AIにおける17の視覚的理解課題を対象に,11の最先端VLMの総合的分析を行う。
- 参考スコア(独自算出の注目度): 1.1765603103920352
- License:
- Abstract: Large Vision-Language Models offer a new paradigm for AI-driven image understanding, enabling models to perform tasks without task-specific training. This flexibility holds particular promise across medicine, where expert-annotated data is scarce. Yet, VLMs' practical utility in intervention-focused domains--especially surgery, where decision-making is subjective and clinical scenarios are variable--remains uncertain. Here, we present a comprehensive analysis of 11 state-of-the-art VLMs across 17 key visual understanding tasks in surgical AI--from anatomy recognition to skill assessment--using 13 datasets spanning laparoscopic, robotic, and open procedures. In our experiments, VLMs demonstrate promising generalizability, at times outperforming supervised models when deployed outside their training setting. In-context learning, incorporating examples during testing, boosted performance up to three-fold, suggesting adaptability as a key strength. Still, tasks requiring spatial or temporal reasoning remained difficult. Beyond surgery, our findings offer insights into VLMs' potential for tackling complex and dynamic scenarios in clinical and broader real-world applications.
- Abstract(参考訳): 大規模ビジョンランゲージモデルは、AI駆動の画像理解のための新しいパラダイムを提供し、モデルがタスク固有のトレーニングなしでタスクを実行することを可能にする。
この柔軟性は、専門家がアノテートしたデータが不足している医療全体において特に有望である。
しかし、介入に焦点を当てた領域におけるVLMsの実用性、特に意思決定が主観的であり、臨床シナリオが変動する手術は不確実である。
本稿では、解剖学的認識からスキルアセスメントまで、外科的AIにおける17の主要な視覚的理解タスクにまたがる11の最先端のVLMを包括的に分析し、腹腔鏡、ロボティクス、オープンプロシージャを対象とする13のデータセットを使用する。
我々の実験では、VLMは有望な一般化可能性を示し、トレーニング環境外に配置された場合、時には教師付きモデルよりも優れていた。
テスト中の例を取り入れたコンテキスト内学習は、パフォーマンスを3倍に向上させ、適応性が重要な強みであることを示唆した。
しかし、時空間的推論や時間的推論を必要とする作業は依然として困難であった。
手術以外にも,臨床およびより広範な実世界の応用において,VLMが複雑でダイナミックなシナリオに対処する可能性についての知見が得られている。
関連論文リスト
- Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。
LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。
外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文 参考訳(メタデータ) (2024-10-13T07:12:35Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery [15.47190687192761]
本稿では, 複雑な手術シナリオに適した, パーソナライズされた大規模視覚言語モデルであるオペレーショナル-LVLMを紹介する。
本研究では,EndoVis-17-VQLA,EndoVis-18-VQLA,新たに導入されたEndoVis Conversationsデータセットなど,いくつかのベンチマークにおける手術用LVLMの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T08:38:27Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - More Than Meets the Eye: Analyzing Anesthesiologists' Visual Attention
in the Operating Room Using Deep Learning Models [0.0]
現在、ほとんどの研究は、麻酔科医の視覚パターンを分析するためにウェアラブルアイトラッキング技術を採用している。
モニタ搭載ウェブカメラを処理する深層学習モデルを用いた新しい視線追跡手法を用いて,連続した行動データを収集した。
我々は,不確実な期間のVA分布と,活動期に関連するパターン,あるいは致命的,予期せぬ出来事におけるVA分布を区別した。
論文 参考訳(メタデータ) (2023-08-10T11:12:04Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Robust and Efficient Medical Imaging with Self-Supervision [80.62711706785834]
医用画像AIの堅牢性とデータ効率を向上させるための統一表現学習戦略であるREMEDISを提案する。
様々な医療画像タスクを研究し, 振り返りデータを用いて3つの現実的な応用シナリオをシミュレートする。
論文 参考訳(メタデータ) (2022-05-19T17:34:18Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。