論文の概要: Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations
- arxiv url: http://arxiv.org/abs/2501.18474v1
- Date: Thu, 30 Jan 2025 16:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:55.860554
- Title: Tuning Vision Foundation Model via Test-Time Prompt-Guided Training for VFSS Segmentations
- Title(参考訳): VFSSセグメンテーションのためのテストタイムプロンプトガイドによるチューニングビジョン基礎モデル
- Authors: Chengxi Zeng, David Smithard, Alberto M Gambaruto, Tilo Burghardt,
- Abstract要約: 本稿では,全アノテーションを必要とせず,下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。
具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。
このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
- 参考スコア(独自算出の注目度): 1.8142185304787555
- License:
- Abstract: Vision foundation models have demonstrated exceptional generalization capabilities in segmentation tasks for both generic and specialized images. However, a performance gap persists between foundation models and task-specific, specialized models. Fine-tuning foundation models on downstream datasets is often necessary to bridge this gap. Unfortunately, obtaining fully annotated ground truth for downstream datasets is both challenging and costly. To address this limitation, we propose a novel test-time training paradigm that enhances the performance of foundation models on downstream datasets without requiring full annotations. Specifically, our method employs simple point prompts to guide a test-time semi-self-supervised training task. The model learns by resolving the ambiguity of the point prompt through various augmentations. This approach directly tackles challenges in the medical imaging field, where acquiring annotations is both time-intensive and expensive. We conducted extensive experiments on our new Videofluoroscopy dataset (VFSS-5k) for the instance segmentation task, achieving an average Dice coefficient of 0.868 across 12 anatomies with a single model.
- Abstract(参考訳): 視覚基礎モデルは、一般的な画像と特殊画像の両方のセグメンテーションタスクにおいて、例外的な一般化能力を示した。
しかし、基礎モデルとタスク固有の特殊モデルの間には、パフォーマンスギャップが持続する。
ダウンストリームデータセットの微調整基盤モデルは、このギャップを埋めるためには、しばしば必要である。
残念なことに、下流のデータセットに完全に注釈付けされた真実を得るのは、困難かつコストがかかる。
この制限に対処するため、本研究では、全アノテーションを必要とせず、下流データセット上での基礎モデルの性能を向上させる新しいテストタイムトレーニングパラダイムを提案する。
具体的には、テスト時間半自己指導型トレーニングタスクを誘導するために、簡単なポイントプロンプトを用いる。
モデルは、様々な拡張を通じて、ポイントの曖昧さを解消することによって学習する。
このアプローチは、アノテーションの取得が時間集約的かつ高価である医療画像分野の課題に、直接取り組む。
インスタンス分割作業のための新しいビデオフルオロスコープデータセット(VFSS-5k)について広範な実験を行い、12の解剖群で平均Dice係数0.868を1つのモデルで達成した。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - A Critical Look at the Current Usage of Foundation Model for Dense
Recognition Task [26.938332354370814]
膨大なモダリティデータに基づいて訓練された大規模なモデルは、通常基礎モデルと呼ばれ、多くの分野において顕著な達成を達成する。
これらの基盤モデルが他の下流タスクに適用できるかどうかはまだ不明である。
論文 参考訳(メタデータ) (2023-07-06T08:57:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Federated Alternate Training (FAT): Leveraging Unannotated Data Silos in
Federated Segmentation for Medical Imaging [15.74030550807913]
Federated Learning (FL)は、機械学習(ML)モデルを分散形式でトレーニングし、限られたデータマイグレーションコストでデータのプライバシを強化することを目的としている。
現在のFLベースの医療画像研究の多くは、サイロにはトレーニングのための基礎的な真理ラベルがあると考えている。
我々は、アノテーション付きデータサイロとアノテーションなしデータサイロ間のトレーニングを変更する、代替トレーニングベースのフレームワークであるFederated Alternate Training (FAT)を提案する。
論文 参考訳(メタデータ) (2023-04-18T22:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。