論文の概要: TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models
- arxiv url: http://arxiv.org/abs/2410.05239v2
- Date: Tue, 8 Oct 2024 06:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 20:07:08.308168
- Title: TuneVLSeg: Prompt Tuning Benchmark for Vision-Language Segmentation Models
- Title(参考訳): TuneVLSeg: ビジョンランゲージセグメンテーションモデルのためのプロンプトチューニングベンチマーク
- Authors: Rabin Adhikari, Safal Thapaliya, Manish Dhakal, Bishesh Khanal,
- Abstract要約: この研究は、Vision-Language Modelsに様々な非モーダルおよびマルチモーダルプロンプトチューニング技術を統合するためのオープンソースのベンチマークフレームワークであるTuneVLSegを提示する。
放射線学データセットは3ドル、非放射線学データセットは5ドルである。
そこで本研究では,自然領域の画像から医療データまで,ドメインシフトの大きな課題の下で,迅速なチューニングが困難であることが判明した。
- 参考スコア(独自算出の注目度): 1.0599607477285327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have shown impressive performance in vision tasks, but adapting them to new domains often requires expensive fine-tuning. Prompt tuning techniques, including textual, visual, and multimodal prompting, offer efficient alternatives by leveraging learnable prompts. However, their application to Vision-Language Segmentation Models (VLSMs) and evaluation under significant domain shifts remain unexplored. This work presents an open-source benchmarking framework, TuneVLSeg, to integrate various unimodal and multimodal prompt tuning techniques into VLSMs, making prompt tuning usable for downstream segmentation datasets with any number of classes. TuneVLSeg includes $6$ prompt tuning strategies on various prompt depths used in $2$ VLSMs totaling of $8$ different combinations. We test various prompt tuning on $8$ diverse medical datasets, including $3$ radiology datasets (breast tumor, echocardiograph, chest X-ray pathologies) and $5$ non-radiology datasets (polyp, ulcer, skin cancer), and two natural domain segmentation datasets. Our study found that textual prompt tuning struggles under significant domain shifts, from natural-domain images to medical data. Furthermore, visual prompt tuning, with fewer hyperparameters than multimodal prompt tuning, often achieves performance competitive to multimodal approaches, making it a valuable first attempt. Our work advances the understanding and applicability of different prompt-tuning techniques for robust domain-specific segmentation. The source code is available at https://github.com/naamiinepal/tunevlseg.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚タスクにおいて優れたパフォーマンスを示しているが、新しいドメインに適応するためには、しばしば高価な微調整が必要である。
テキスト、ビジュアル、マルチモーダルプロンプトなどのプロンプトチューニング技術は、学習可能なプロンプトを活用することで効率的な代替手段を提供する。
しかし、VLSM(Vision-Language Segmentation Models)への適用や、重要なドメインシフトによる評価については、まだ明らかになっていない。
この研究は、オープンソースのベンチマークフレームワークであるTuneVLSegをVLSMに組み込むことで、任意のクラスのダウンストリームセグメンテーションデータセットにプロンプトチューニングを可能にする。
TuneVLSegには、さまざまなプロンプト深度に関する6ドルのプロンプトチューニング戦略が含まれており、合計で8ドルのVLSMが使用されている。
我々は、放射線学データセット(胸部腫瘍、心エコー図、胸部X線病理学)3ドル、非放射線学データセット(ポリープ、潰瘍、皮膚がん)5ドル、および2つの自然領域セグメンテーションデータセットを含む8ドルの多様な医療データセットに対して、様々な迅速なチューニングを試験した。
本研究は, 自然領域画像から医療データまで, ドメインシフトが著しいテキスト・プロンプト・チューニングに苦しむことを発見した。
さらに、視覚的プロンプトチューニングは、マルチモーダルプロンプトチューニングよりもハイパーパラメータが少なく、しばしばマルチモーダルアプローチと競合する性能を達成し、価値ある最初の試みとなる。
我々の研究は、堅牢なドメイン固有セグメンテーションのための異なるプロンプトチューニング手法の理解と適用性を向上させる。
ソースコードはhttps://github.com/naamiinepal/tunevlseg.comで入手できる。
関連論文リスト
- Craft: Cross-modal Aligned Features Improve Robustness of Prompt Tuning [26.876547151781438]
本稿では,モーダル・アラインド・フィーチャー・チューニング(Craft)手法を提案し,即時チューニングにおけるオーバーフィッティングの問題に対処する。
提案手法は,プロンプトモデルのロバスト性をさらに向上するため,アンカー整列した特徴空間上での最大平均離散性(MMD)を最小化することを提案する。
論文 参考訳(メタデータ) (2024-07-22T03:51:16Z) - VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks [1.0599607477285327]
本稿では,トランスコーダを用いて事前学習した視覚言語セグメンテーションモデルを微調整できる新しいアダプタ VLSM-Adapter を提案する。
広く使われているCLIPを用いたセグメンテーションモデルによる実験では、トレーニング可能なパラメータは300万個に過ぎず、VLSM-Adapterは最先端よりも優れており、上層境界のエンドツーエンドファインチューニングに匹敵する。
論文 参考訳(メタデータ) (2024-05-10T02:23:56Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Diversity-Aware Meta Visual Prompting [111.75306320834629]
DAM-VP(Diversity-Aware Meta Visual Prompting)は、学習済みのモデルを凍結したバックボーンで下流のタスクに転送する効率的なプロンプト手法である。
下流のデータセットを、多様性に富んだ方法で小さなサブセットにクラスタ化し、それぞれのサブセットがそれぞれ独自のプロンプトを持っている。
すべてのプロンプトはメタプロンプトで最適化され、複数のデータセットで学習される。
論文 参考訳(メタデータ) (2023-03-14T17:59:59Z) - Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。
MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。
20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T18:41:44Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Automatic Polyp Segmentation via Multi-scale Subtraction Network [100.94922587360871]
臨床的には、正確なポリープセグメンテーションは大腸癌の早期発見に重要な情報を提供する。
既存のほとんどの手法はU字型構造に基づいており、デコーダで段階的に異なるレベルの特徴を融合させるために要素ワイド付加または結合を用いる。
大腸内視鏡画像からポリプを抽出するマルチスケールサブトラクションネットワーク(MSNet)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。