論文の概要: SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding
- arxiv url: http://arxiv.org/abs/2603.09496v1
- Date: Tue, 10 Mar 2026 10:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.242768
- Title: SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding
- Title(参考訳): SurgFed: 手術ビデオ理解のための言語誘導型マルチタスクフェデレーションラーニング
- Authors: Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin,
- Abstract要約: SurgFedは、手術シーンのセグメンテーションと深さ推定のためのマルチタスク・フェデレーション学習フレームワークである。
SurgFedには2つの魅力的な設計、すなわちLanguage-guided Channel SelectionとLanguage-guided Hyper Aggregationが使用されている。
SurgFedは、4つの手術タイプにわたる5つの公開データセットにおいて、最先端の手法よりも改善されている。
- 参考スコア(独自算出の注目度): 18.297136509444936
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Surgical scene Multi-Task Federated Learning (MTFL) is essential for robot-assisted minimally invasive surgery (RAS) but remains underexplored in surgical video understanding due to two key challenges: (1) Tissue Diversity: Local models struggle to adapt to site-specific tissue features, limiting their effectiveness in heterogeneous clinical environments and leading to poor local predictions. (2) Task Diversity: Server-side aggregation, relying solely on gradient-based clustering, often produces suboptimal or incorrect parameter updates due to inter-site task heterogeneity, resulting in inaccurate localization. In light of these two issues, we propose SurgFed, a multi-task federated learning framework, enabling federated learning for surgical scene segmentation and depth estimation across diverse surgical types. SurgFed is powered by two appealing designs, i.e., Language-guided Channel Selection (LCS) and Language-guided Hyper Aggregation (LHA), to address the challenge of fully exploration on corss-site and cross-task. Technically, the LCS is first designed a lightweight personalized channel selection network that enhances site-specific adaptation using pre-defined text inputs, which optimally the local model learn the specific embeddings. We further introduce the LHA that employs a layer-wise cross-attention mechanism with pre-defined text inputs to model task interactions across sites and guide a hypernetwork for personalized parameter updates. Extensive empirical evidence shows that SurgFed yields improvements over the state-of-the-art methods in five public datasets across four surgical types. The code is available at https://anonymous.4open.science/r/SurgFed-070E/.
- Abstract(参考訳): 手術シーン MTFL(Multi-Task Federated Learning)は、ロボットによる最小侵襲手術(RAS)には不可欠であるが、組織多様性: 局所モデルは、部位特異的な組織の特徴への適応に苦慮し、不均一な臨床環境における効果を制限し、局所的予測の低下につながる。
2)タスクの多様性: 勾配ベースのクラスタリングにのみ依存するサーバ側アグリゲーションは、サイト間タスクの不均一性によるパラメータ更新の最適化や不正な更新をしばしば発生し、不正確なローカライゼーションをもたらす。
これら2つの課題を踏まえ,多タスク統合学習フレームワークであるSurgFedを提案する。
SurgFedは2つの魅力的な設計、すなわちLanguage-guided Channel Selection (LCS) とLanguage-guided Hyper Aggregation (LHA) を駆使し、コルスサイトとクロスタスクの完全な探索の課題に対処している。
技術的には、LCSは、事前に定義されたテキスト入力を用いてサイト固有の適応を強化する軽量なパーソナライズされたチャネル選択ネットワークを設計し、ローカルモデルは特定の埋め込みを最適に学習する。
さらに、サイト間でのタスクインタラクションをモデル化し、パーソナライズされたパラメータ更新のためにハイパーネットワークをガイドするために、事前に定義されたテキスト入力を備えたレイヤワイズ・クロスアテンション機構を利用するLHAについても紹介する。
広範囲にわたる経験的証拠は、SurgFedが4つの手術種にわたる5つの公開データセットで最先端の手法よりも改善していることを示している。
コードはhttps://anonymous.4open.science/r/SurgFed-070E/で公開されている。
関連論文リスト
- HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - Cataract-LMM: Large-Scale, Multi-Source, Multi-Task Benchmark for Deep Learning in Surgical Video Analysis [4.318540086708654]
2つの手術センターから3000個の白内障手術ビデオのデータセットを作成した。
このリソースには、時間的外科的フェーズ、機器と解剖学的構造のインスタンスセグメンテーション、機器間の相互作用の追跡、定量的スキルスコアの4つのアノテーション層がある。
データセットの技術的品質は、重要な外科的AIタスクのための一連のベンチマーク実験によってサポートされている。
論文 参考訳(メタデータ) (2025-10-18T06:48:29Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement [7.150163844454341]
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
論文 参考訳(メタデータ) (2024-10-23T07:58:47Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-26T15:35:24Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Identification of Cognitive Workload during Surgical Tasks with
Multimodal Deep Learning [20.706268332427157]
関連する認知ワークロード(CWL)の増加は、予期せぬ、反復的なタスクへの対処から生じる。
本稿では,CWLのマルチモーダル認識のための2つの機械学習手法のカスケードを提案する。
畳み込みニューラルネットワーク(CNN)は、この情報を用いて、各手術タスクに関連するさまざまなタイプのCWLを識別する。
論文 参考訳(メタデータ) (2022-09-12T18:29:34Z) - BARNet: Bilinear Attention Network with Adaptive Receptive Fields for
Surgical Instrument Segmentation [26.44585036105453]
本稿では,この2つの課題を解決するために,適応的受容場を有するバイリニアアテンションネットワークを提案する。
提案されたネットワークは、Cata7上で97.47%の平均IOUを達成し、2017年のEndoVisで10.10%のIOUが2位にランクインした。
論文 参考訳(メタデータ) (2020-01-20T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。