Fugu-MT 論文翻訳(概要): Task-driven Prompt Evolution for Foundation Models

論文の概要: Task-driven Prompt Evolution for Foundation Models

arxiv url: http://arxiv.org/abs/2310.17128v1
Date: Thu, 26 Oct 2023 04:08:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 22:22:07.182889
Title: Task-driven Prompt Evolution for Foundation Models
Title（参考訳）: 基礎モデルのためのタスク駆動型プロンプト進化
Authors: Rachana Sathish, Rahul Venkataramani, K S Shriram, Prasad Sudhakar
Abstract要約: SAM(SAMPOT)のような基礎モデルのためのプラグアンドプレイ型プロンプト最適化手法を提案する。胸部X線像における肺分画に対するSAMPOTの有用性について検討した。
参考スコア（独自算出の注目度）: 0.8192907805418581
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Promptable foundation models, particularly Segment Anything Model (SAM), have emerged as a promising alternative to the traditional task-specific supervised learning for image segmentation. However, many evaluation studies have found that their performance on medical imaging modalities to be underwhelming compared to conventional deep learning methods. In the world of large pre-trained language and vision-language models, learning prompt from downstream tasks has achieved considerable success in improving performance. In this work, we propose a plug-and-play Prompt Optimization Technique for foundation models like SAM (SAMPOT) that utilizes the downstream segmentation task to optimize the human-provided prompt to obtain improved performance. We demonstrate the utility of SAMPOT on lung segmentation in chest X-ray images and obtain an improvement on a significant number of cases ($\sim75\%$) over human-provided initial prompts. We hope this work will lead to further investigations in the nascent field of automatic visual prompt-tuning.
Abstract（参考訳）: 予測可能な基礎モデル、特にSegment Anything Model(SAM)は、イメージセグメンテーションのための従来のタスク固有の教師あり学習に代わる有望な代替として登場した。しかし,多くの評価研究により,従来の深層学習法と比較して,医療画像のモダリティに対する評価が過大評価されている。大規模な事前学習言語とビジョン言語モデルでは、下流タスクからの学習が性能向上に大きく貢献している。本研究では,ダウンストリームセグメンテーションタスクを利用するsam(sampot)のような基礎モデルのプラグイン・アンド・プレイ・プロンプト最適化手法を提案する。胸部x線画像における肺分画に対するsampotの有用性を実証し,ヒトの初期プロンプトに対する相当数の症例 (\sim75\%$) の改善を得た。この研究が、自動視覚プロンプトチューニングの新たな分野におけるさらなる調査につながることを願っている。

関連論文リスト

AutoMiSeg: Automatic Medical Image Segmentation via Test-Time Adaptation of Foundation Models [7.382887784956608]
本稿では,視覚言語とセグメンテーション基礎モデルを組み合わせたゼロショット自動セグメンテーションパイプラインを提案する。適切な分解とテスト時間適応により、我々の完全自動パイプラインは、弱い確率で対話的な基礎モデルと競争的に機能する。
論文参考訳（メタデータ） (2025-05-23T14:07:21Z)
PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation [30.524999223901645]
完全教師なし方式で生成されるアノテーション効率のよいプロンプトを利用するSAM(Segment Anything Model)フレームワークを提案する。我々は、モデルが高忠実度セグメンテーションを生成できるように最適なポリシーを設計するために、直接選好最適化手法を採用する。 X線, 超音波, 腹部CTなど多彩な領域にわたる肺分節, 乳房腫瘍分節, 臓器分節などのタスクにおける我々のフレームワークの最先端性能は, 低アノテーションデータシナリオにおけるその有効性を正当化するものである。
論文参考訳（メタデータ） (2025-03-06T17:28:48Z)
Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations [1.8142185304787555]
本稿では,全アノテーションを必要とせず,下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
論文参考訳（メタデータ） (2025-01-30T16:48:02Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection [57.666055329221194]
本稿では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルの赤外線小物体検出タスクへの適応について検討する。提案モデルでは,既存の手法と比較して,精度とスループットの両方で性能が大幅に向上した。
論文参考訳（メタデータ） (2024-09-07T05:31:24Z)
How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model [12.051904886550956]
この研究は、様々なバックボーンアーキテクチャ、モデルコンポーネント、および18の組み合わせにわたる微調整アルゴリズムによる既存の微調整戦略をまとめたものである。一般的な放射線学のモダリティを網羅した17のデータセットで評価した。コードとMRI特有の微調整ウェイトをリリースし、元のSAMよりも一貫して優れた性能を得た。
論文参考訳（メタデータ） (2024-04-15T17:31:32Z)
Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文参考訳（メタデータ） (2024-03-14T17:52:31Z)
Multi-organ Self-supervised Contrastive Learning for Breast Lesion Segmentation [0.0]
本稿では,臓器関連目標タスクに適した事前学習モデルとして,多臓器データセットを用いる。対象は超音波画像における乳腺腫瘍のセグメンテーションである。その結果,従来のコントラスト学習事前学習は,教師付きベースラインアプローチに比べて性能が向上することがわかった。
論文参考訳（メタデータ） (2024-02-21T20:29:21Z)
Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-04T04:42:05Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
TransMed: Large Language Models Enhance Vision Transformer for Biomedical Image Classification [11.202967500669402]
ごく少数のサンプルでモデルをタスクに適応させるために、いくつかのショットラーニングが研究されている。大規模言語モデル(LLM)を用いてラベルを文脈化する新しい手法を提案する。以上の結果から,LLMが生成するコンテキストは,類似のカテゴリに対する意味埋め込みの識別を著しく向上させることが明らかとなった。
論文参考訳（メタデータ） (2023-12-12T09:58:07Z)
Self-Prompting Large Vision Models for Few-Shot Medical Image Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。複数のデータセットで競合する結果を得る。
論文参考訳（メタデータ） (2023-08-15T08:20:07Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。