論文の概要: Distilling Expert Surgical Knowledge: How to train local surgical VLMs for anatomy explanation in Complete Mesocolic Excision
- arxiv url: http://arxiv.org/abs/2512.05740v1
- Date: Fri, 05 Dec 2025 14:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.053938
- Title: Distilling Expert Surgical Knowledge: How to train local surgical VLMs for anatomy explanation in Complete Mesocolic Excision
- Title(参考訳): 専門的外科的知識の蒸留:完全中等度手術における解剖学的説明のための局所的外科的VLMの訓練方法
- Authors: Lennart Maack, Julia-Kristin Graß, Lisa-Marie Toscha, Nathaniel Melling, Alexander Schlaefer,
- Abstract要約: 本稿では,大規模汎用LDMから効率的なローカルVLMへ知識を抽出するプライバシー保護フレームワークを提案する。
我々は,教師のLCMに感性のあるイメージを使わずにプロンプトすることで,専門家が指導するデータセットを生成する。
このデータセットは、ローカルにデプロイ可能な VLM の Supervised Fine-Tuning (SFT) と、その後の Direct Preference Optimization (DPO) に使用される。
- 参考スコア(独自算出の注目度): 37.69960254921228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Vision Large Language Models (VLMs) have demonstrated high potential in computer-aided diagnosis and decision-support. However, current VLMs show deficits in domain specific surgical scene understanding, such as identifying and explaining anatomical landmarks during Complete Mesocolic Excision. Additionally, there is a need for locally deployable models to avoid patient data leakage to large VLMs, hosted outside the clinic. We propose a privacy-preserving framework to distill knowledge from large, general-purpose LLMs into an efficient, local VLM. We generate an expert-supervised dataset by prompting a teacher LLM without sensitive images, using only textual context and binary segmentation masks for spatial information. This dataset is used for Supervised Fine-Tuning (SFT) and subsequent Direct Preference Optimization (DPO) of the locally deployable VLM. Our evaluation confirms that finetuning VLMs with our generated datasets increases surgical domain knowledge compared to its base VLM by a large margin. Overall, this work validates a data-efficient and privacy-conforming way to train a surgical domain optimized, locally deployable VLM for surgical scene understanding.
- Abstract(参考訳): 近年,視覚大言語モデル (VLM) はコンピュータ支援型診断と意思決定支援において高い可能性を示している。
しかしながら、現在のVLMは、完全なメソコリック・エクセション中の解剖学的ランドマークの特定や説明など、領域固有の外科的シーン理解の欠如を示している。
さらに、診療所の外でホストされている大規模なVLMへの患者のデータ漏洩を避けるために、ローカルにデプロイ可能なモデルが必要である。
本稿では,大規模汎用LDMから効率的なローカルVLMへ知識を抽出するプライバシー保護フレームワークを提案する。
我々は,テキストコンテキストと2値セグメンテーションマスクのみを空間情報として用いて,教師のLCMにセンシティブなイメージを使わずにプロンプトすることで,専門家が指導するデータセットを生成する。
このデータセットは、ローカルにデプロイ可能な VLM の Supervised Fine-Tuning (SFT) と、その後の Direct Preference Optimization (DPO) に使用される。
我々の評価では,VLMを生成データセットで微調整することで,基礎となるVLMに比べて手術領域の知識が大幅に向上することが確認された。
全体として、この研究は、外科領域を最適化し、局所的にデプロイ可能なVLMを手術シーン理解のために訓練するための、データ効率とプライバシコンフォーミングの方法を検証する。
関連論文リスト
- RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - Pre-Trained LLM is a Semantic-Aware and Generalizable Segmentation Booster [18.666242153073476]
CNNエンコーダ・デコーダ・セグメンテーション・フレームワーク(LLM4Seg)に事前学習した凍結LDM層を統合する単純なハイブリッド構造を提案する。
驚くべきことに、この設計は、超音波、皮膚内視鏡、ポリスコピー、CTスキャンなど、様々なモードでトレーニング可能なパラメータを最小限に増やすことで、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2025-06-22T13:34:00Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training [5.819704618007536]
自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。
本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T04:04:36Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - ELVIS: Empowering Locality of Vision Language Pre-training with
Intra-modal Similarity [22.34714466687089]
深層学習は胸部X線画像(CXR)の読影において放射線技師を支援する大きな可能性を示している。
視覚言語事前学習は、レントグラフの定期的なレポートを活用することで、アノテーションの負担とコストを軽減することができる。
論文 参考訳(メタデータ) (2023-04-11T15:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。