論文の概要: Efficient Few-Shot Clinical Task Adaptation with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07125v1
- Date: Tue, 12 Dec 2023 09:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:36:39.932880
- Title: Efficient Few-Shot Clinical Task Adaptation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた能率的臨床タスク適応
- Authors: Kaipeng Zheng, Weiran Huang, Lichao Sun
- Abstract要約: ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
- 参考スコア(独自算出の注目度): 11.202967500669402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot learning has been studied to adapt models to tasks with very few
samples. It holds profound significance, particularly in clinical tasks, due to
the high annotation cost of medical images. Several works have explored
few-shot learning on medical images, yet they still require a large number of
medical images for pre-training models to gain domain-specific priors. Vision
foundation models recently have achieved remarkable success in natural images.
Hence, adapting rapidly advancing vision foundation models from natural images
to few-shot clinical tasks holds great promise. MedFMC has recently organized a
challenge to shed more light on this topic at NeurIPS 2023. In this work, we
present our challenge solution. We observe that a simple variant of fine-tuning
with partial freezing shows remarkable performance. Empirical evidence
demonstrates that this approach could outperform various common fine-tuning
methods under limited sample sizes. Additionally, we explore enhanced
utilization of semantic supervision to boost performance. We propose a novel
approach that contextualizes labels via large language models (LLMs). Our
findings reveal that the context generated by LLMs significantly enhances the
discrimination of semantic embeddings for similar categories, resulting in a
notable performance improvement of 3%-5% in 1-shot settings compared to
commonly employed one-hot labels and other semantic supervision methods. Our
solution secures the 1st place in the MedFMC challenge.
- Abstract(参考訳): ごく少数のサンプルを持つタスクにモデルを適用するために、数少ない学習が研究されている。
医用画像のアノテーションコストが高いため、特に臨床研究において重要な意味を持つ。
いくつかの研究は、医療画像の少数ショット学習を探求しているが、ドメイン固有の優先事項を得るためには、事前学習モデルに大量の医療画像が必要である。
vision foundationのモデルは最近、自然画像で目覚ましい成功を収めた。
したがって、自然画像から数発の臨床的タスクに急速に進歩する視覚基盤モデルを適用することは大きな約束である。
MedFMCは先日のNeurIPS 2023で、このトピックにもっと光を当てるためのチャレンジを組織した。
本研究では,課題解決法を提案する。
部分凍結によるファインチューニングの簡単な変形が顕著な性能を示した。
実証的な証拠は、このアプローチが限られたサンプルサイズで様々な一般的な微調整方法を上回ることを証明している。
さらに,性能向上のためのセマンティック・インシデントの利用の強化についても検討する。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
その結果,LLMが生成するコンテキストは類似のカテゴリに対するセマンティック埋め込みの識別を著しく向上させ,一般的に使用されるワンホットラベルや他のセマンティックインフォメーション手法と比較して1ショット設定で3%-5%の顕著な性能向上が得られた。
私たちのソリューションは、medfmcチャレンジの1位を確保します。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Few-shot Adaptation of Medical Vision-Language Models [17.11090825001394]
本稿では,医療ビジョン言語モデル(VLM)を厳格な数ショット方式で適用するための最初の構造化ベンチマークを紹介する。
視覚プロトタイプとテキスト埋め込みの最適なブレンディングを求める線形プローブ適応ベースラインの簡易な一般化を評価する。
驚くべきことに、このようなテキストインフォームド線形プローブは、複雑なプロンプトラーニングやアダプタベースの戦略と比較して、競合する性能が得られる。
論文 参考訳(メタデータ) (2024-09-05T19:10:29Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - One-shot Localization and Segmentation of Medical Images with Foundation
Models [7.9060536840474365]
自然画像上で訓練されたモデルが,医用画像上で優れた性能を発揮することを示す。
テンプレート画像に対する対応を利用して、Segment Anything(SAM)モデルを単一ショットセグメンテーションに到達させる。
また,本手法は,最近提案された複数ショットセグメンテーション法であるUniverSegよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-28T08:58:20Z) - Plug-and-Play Feature Generation for Few-Shot Medical Image
Classification [23.969183389866686]
限られた訓練データを用いた医用画像分類におけるモデル一般化と実用性の向上に大きな可能性を秘めている。
MedMFGは,限られたサンプルから十分なクラス識別機能を生成するために設計された,フレキシブルで軽量なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2023-10-14T02:36:14Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - DiffMIC: Dual-Guidance Diffusion Network for Medical Image
Classification [32.67098520984195]
一般医用画像分類のための拡散モデル(DiffMIC)を提案する。
実験の結果,DiffMICは最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-03-19T09:15:45Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。