論文の概要: Task-driven Prompt Evolution for Foundation Models
- arxiv url: http://arxiv.org/abs/2310.17128v1
- Date: Thu, 26 Oct 2023 04:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:22:07.182889
- Title: Task-driven Prompt Evolution for Foundation Models
- Title(参考訳): 基礎モデルのためのタスク駆動型プロンプト進化
- Authors: Rachana Sathish, Rahul Venkataramani, K S Shriram, Prasad Sudhakar
- Abstract要約: SAM(SAMPOT)のような基礎モデルのためのプラグアンドプレイ型プロンプト最適化手法を提案する。
胸部X線像における肺分画に対するSAMPOTの有用性について検討した。
- 参考スコア(独自算出の注目度): 0.8192907805418581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Promptable foundation models, particularly Segment Anything Model (SAM), have
emerged as a promising alternative to the traditional task-specific supervised
learning for image segmentation. However, many evaluation studies have found
that their performance on medical imaging modalities to be underwhelming
compared to conventional deep learning methods. In the world of large
pre-trained language and vision-language models, learning prompt from
downstream tasks has achieved considerable success in improving performance. In
this work, we propose a plug-and-play Prompt Optimization Technique for
foundation models like SAM (SAMPOT) that utilizes the downstream segmentation
task to optimize the human-provided prompt to obtain improved performance. We
demonstrate the utility of SAMPOT on lung segmentation in chest X-ray images
and obtain an improvement on a significant number of cases ($\sim75\%$) over
human-provided initial prompts. We hope this work will lead to further
investigations in the nascent field of automatic visual prompt-tuning.
- Abstract(参考訳): 予測可能な基礎モデル、特にSegment Anything Model(SAM)は、イメージセグメンテーションのための従来のタスク固有の教師あり学習に代わる有望な代替として登場した。
しかし,多くの評価研究により,従来の深層学習法と比較して,医療画像のモダリティに対する評価が過大評価されている。
大規模な事前学習言語とビジョン言語モデルでは、下流タスクからの学習が性能向上に大きく貢献している。
本研究では,ダウンストリームセグメンテーションタスクを利用するsam(sampot)のような基礎モデルのプラグイン・アンド・プレイ・プロンプト最適化手法を提案する。
胸部x線画像における肺分画に対するsampotの有用性を実証し,ヒトの初期プロンプトに対する相当数の症例 (\sim75\%$) の改善を得た。
この研究が、自動視覚プロンプトチューニングの新たな分野におけるさらなる調査につながることを願っている。
関連論文リスト
- How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model [12.051904886550956]
この研究は、様々なバックボーンアーキテクチャ、モデルコンポーネント、および18の組み合わせにわたる微調整アルゴリズムによる既存の微調整戦略をまとめたものである。
一般的な放射線学のモダリティを網羅した17のデータセットで評価した。
コードとMRI特有の微調整ウェイトをリリースし、元のSAMよりも一貫して優れた性能を得た。
論文 参考訳(メタデータ) (2024-04-15T17:31:32Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Multi-organ Self-supervised Contrastive Learning for Breast Lesion
Segmentation [0.0]
本稿では,臓器関連目標タスクに適した事前学習モデルとして,多臓器データセットを用いる。
対象は超音波画像における乳腺腫瘍のセグメンテーションである。
その結果,従来のコントラスト学習事前学習は,教師付きベースラインアプローチに比べて性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:29:21Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - TransMed: Large Language Models Enhance Vision Transformer for
Biomedical Image Classification [11.202967500669402]
ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。
大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。
以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T09:58:07Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。