論文の概要: Adaptation of Multi-modal Representation Models for Multi-task Surgical Computer Vision
- arxiv url: http://arxiv.org/abs/2507.05020v1
- Date: Mon, 07 Jul 2025 14:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.450253
- Title: Adaptation of Multi-modal Representation Models for Multi-task Surgical Computer Vision
- Title(参考訳): マルチタスク手術コンピュータビジョンのためのマルチモーダル表現モデルの適応
- Authors: Soham Walimbe, Britty Baby, Vinkle Srivastav, Nicolas Padoy,
- Abstract要約: MML-SurgAdaptは、自然言語の監視を通じて様々な外科的タスクを処理するための統合マルチタスクフレームワークである。
マルチタスク学習における重要な課題は、異なるタスクを統合する際に部分的なアノテーションが存在することである。
本フレームワークは,複数の外科的タスクからのデータを単一の手順に統合し,不完全あるいはノイズの多いアノテーションにもかかわらず効果的な学習を可能にするため,このアプローチを拡張した。
- 参考スコア(独自算出の注目度): 1.890063512530524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical AI often involves multiple tasks within a single procedure, like phase recognition or assessing the Critical View of Safety in laparoscopic cholecystectomy. Traditional models, built for one task at a time, lack flexibility, requiring a separate model for each. To address this, we introduce MML-SurgAdapt, a unified multi-task framework with Vision-Language Models (VLMs), specifically CLIP, to handle diverse surgical tasks through natural language supervision. A key challenge in multi-task learning is the presence of partial annotations when integrating different tasks. To overcome this, we employ Single Positive Multi-Label (SPML) learning, which traditionally reduces annotation burden by training models with only one positive label per instance. Our framework extends this approach to integrate data from multiple surgical tasks within a single procedure, enabling effective learning despite incomplete or noisy annotations. We demonstrate the effectiveness of our model on a combined dataset consisting of Cholec80, Endoscapes2023, and CholecT50, utilizing custom prompts. Extensive evaluation shows that MML-SurgAdapt performs comparably to task-specific benchmarks, with the added advantage of handling noisy annotations. It also outperforms the existing SPML frameworks for the task. By reducing the required labels by 23%, our approach proposes a more scalable and efficient labeling process, significantly easing the annotation burden on clinicians. To our knowledge, this is the first application of SPML to integrate data from multiple surgical tasks, presenting a novel and generalizable solution for multi-task learning in surgical computer vision. Implementation is available at: https://github.com/CAMMA-public/MML-SurgAdapt
- Abstract(参考訳): 外科的AIは、位相認識や腹腔鏡下胆嚢摘出術の安全性評価など、単一の手順で複数のタスクをこなすことが多い。
従来のモデルは一度にひとつのタスクのために構築され、柔軟性がなく、それぞれに別々のモデルが必要です。
この問題を解決するために,視覚言語モデル(VLM)を用いた統合マルチタスクフレームワークであるMML-SurgAdaptを導入する。
マルチタスク学習における重要な課題は、異なるタスクを統合する際に部分的なアノテーションが存在することである。
これを解決するために、単一正のマルチラベル学習(SPML)を採用し、従来、1インスタンスに1つの正のラベルしか持たないモデルで、アノテーションの負担を軽減してきた。
本フレームワークは,複数の外科的タスクからのデータを単一の手順に統合し,不完全あるいはノイズの多いアノテーションにもかかわらず効果的な学習を可能にするため,このアプローチを拡張した。
我々は、カスタムプロンプトを利用して、Colec80、Endoscapes2023、ColecT50を組み合わせたデータセット上で、モデルの有効性を実証した。
MML-SurgAdaptはタスク固有のベンチマークと互換性があり、ノイズの多いアノテーションを扱う利点がある。
また、タスクの既存のSPMLフレームワークよりも優れています。
必要なラベルを23%削減することで,よりスケーラブルで効率的なラベル付けプロセスが提案され,臨床医のアノテーション負担を大幅に軽減する。
我々の知る限り、これは複数の外科的タスクからのデータを統合するSPMLの最初の応用であり、外科的コンピュータビジョンにおけるマルチタスク学習のための、新しく一般化可能なソリューションである。
実装は以下の通りである。 https://github.com/CAMMA-public/MML-SurgAdapt
関連論文リスト
- Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning [46.51245338355645]
モデルマージは、シングルタスクのチェックポイントをマルチタスクモデルにマージするための、柔軟で計算的に抽出可能なアプローチである。
本研究は,タスク固有デコーダの存在により,文献で研究されている単一入出力・複数出力モデルのマージ設定と定性的に異なることを示す。
SIMO設定に対する2つの単純かつ効率的な修正を提案し,統合後の特徴表現を再調整する。
論文 参考訳(メタデータ) (2025-04-15T15:10:46Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - MING-MOE: Enhancing Medical Multi-Task Learning in Large Language Models with Sparse Mixture of Low-Rank Adapter Experts [22.596827147978598]
本稿では,MING-MOE(Mixture-of-Expert)をベースとした医療用大規模言語モデルを提案する。
タスク固有のアノテーションを必要とせずに、多種多様な複雑な医療タスクを管理するように設計されている。
20以上の医療タスクで最先端(SOTA)のパフォーマンスを達成し、既存のモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-13T15:28:52Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - ST-MAML: A Stochastic-Task based Method for Task-Heterogeneous
Meta-Learning [12.215288736524268]
本稿では,モデルに依存しないメタラーニング(MAML)を複数のタスク分布から学習するための新しい手法ST-MAMLを提案する。
そこで本研究では,ST-MAMLが2つの画像分類タスク,1つの曲線評価ベンチマーク,1つの画像補完問題,および実世界の温度予測アプリケーションにおいて,最先端の映像分類タスクに適合または優れることを示す。
論文 参考訳(メタデータ) (2021-09-27T18:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。