論文の概要: VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks
- arxiv url: http://arxiv.org/abs/2405.06196v1
- Date: Fri, 10 May 2024 02:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 16:57:10.581182
- Title: VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks
- Title(参考訳): VLSMアダプタ:軽量ブロックを用いた高精細ビジョン言語セグメンテーション
- Authors: Manish Dhakal, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal,
- Abstract要約: 本稿では,トランスコーダを用いて事前学習した視覚言語セグメンテーションモデルを微調整できる新しいアダプタ VLSM-Adapter を提案する。
広く使われているCLIPを用いたセグメンテーションモデルによる実験では、トレーニング可能なパラメータは300万個に過ぎず、VLSM-Adapterは最先端よりも優れており、上層境界のエンドツーエンドファインチューニングに匹敵する。
- 参考スコア(独自算出の注目度): 1.0599607477285327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation Vision-Language Models (VLMs) trained using large-scale open-domain images and text pairs have recently been adapted to develop Vision-Language Segmentation Models (VLSMs) that allow providing text prompts during inference to guide image segmentation. If robust and powerful VLSMs can be built for medical images, it could aid medical professionals in many clinical tasks where they must spend substantial time delineating the target structure of interest. VLSMs for medical images resort to fine-tuning base VLM or VLSM pretrained on open-domain natural image datasets due to fewer annotated medical image datasets; this fine-tuning is resource-consuming and expensive as it usually requires updating all or a significant fraction of the pretrained parameters. Recently, lightweight blocks called adapters have been proposed in VLMs that keep the pretrained model frozen and only train adapters during fine-tuning, substantially reducing the computing resources required. We introduce a novel adapter, VLSM-Adapter, that can fine-tune pretrained vision-language segmentation models using transformer encoders. Our experiments in widely used CLIP-based segmentation models show that with only 3 million trainable parameters, the VLSM-Adapter outperforms state-of-the-art and is comparable to the upper bound end-to-end fine-tuning. The source code is available at: https://github.com/naamiinepal/vlsm-adapter.
- Abstract(参考訳): 大規模オープンドメインイメージとテキストペアを使用してトレーニングされたVLM(Foundation Vision-Language Models)は、最近、イメージセグメンテーションをガイドする推論中にテキストプロンプトを提供するVLSM(Vision-Language Segmentation Models)の開発に適応している。
医用画像のために堅牢で強力なVLSMを構築できれば、医療従事者が関心の対象構造をかなり詳細に説明しなければならない多くの臨床業務に役立てることができる。
医用画像のVLSMは、注釈付き画像データセットが少ないため、オープンドメインの自然画像データセットで事前訓練された細調整ベースVLMまたはVLSMを利用する。
近年,プリトレーニング済みモデルを凍結し,微調整時にのみアダプタを訓練するVLMでは,アダプタと呼ばれる軽量なブロックが提案されている。
本稿では,トランスコーダを用いて事前学習した視覚言語セグメンテーションモデルを微調整できる新しいアダプタ VLSM-Adapter を提案する。
広く使われているCLIPを用いたセグメンテーションモデルによる実験では、トレーニング可能なパラメータは300万個に過ぎず、VLSM-Adapterは最先端よりも優れており、上層境界のエンドツーエンドファインチューニングに匹敵する。
ソースコードは、https://github.com/naamiinepal/vlsm-adapter.comで入手できる。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z) - MAGMA -- Multimodal Augmentation of Generative Models through
Adapter-based Finetuning [11.339580074756189]
MAGMAは、アダプタベースの微調整を用いて、追加のモダリティで生成言語モデルを拡張するための簡単な方法である。
視覚入力とテキスト入力の任意の組み合わせからテキストを自動回帰生成する一連のVLモデルを訓練する。
論文 参考訳(メタデータ) (2021-12-09T23:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。