論文の概要: How to Benchmark Vision Foundation Models for Semantic Segmentation?
- arxiv url: http://arxiv.org/abs/2404.12172v1
- Date: Thu, 18 Apr 2024 13:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:11:44.550297
- Title: How to Benchmark Vision Foundation Models for Semantic Segmentation?
- Title(参考訳): セマンティックセグメンテーションのためのVision Foundation Modelのベンチマーク方法
- Authors: Tommie Kerssies, Daan de Geus, Gijs Dubbelman,
- Abstract要約: 本稿では,視覚基盤モデル(VFM)をセマンティックセグメンテーションのためにベンチマークする方法について検討する。
様々なVFMを様々な設定で微調整し、個々の設定がパフォーマンスランキングとトレーニング時間に与える影響を評価する。
データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。
- 参考スコア(独自算出の注目度): 1.8570591025615457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision foundation models (VFMs) have demonstrated proficiency in various tasks but require supervised fine-tuning to perform the task of semantic segmentation effectively. Benchmarking their performance is essential for selecting current models and guiding future model developments for this task. The lack of a standardized benchmark complicates comparisons. Therefore, the primary objective of this paper is to study how VFMs should be benchmarked for semantic segmentation. To do so, various VFMs are fine-tuned under various settings, and the impact of individual settings on the performance ranking and training time is assessed. Based on the results, the recommendation is to fine-tune the ViT-B variants of VFMs with a 16x16 patch size and a linear decoder, as these settings are representative of using a larger model, more advanced decoder and smaller patch size, while reducing training time by more than 13 times. Using multiple datasets for training and evaluation is also recommended, as the performance ranking across datasets and domain shifts varies. Linear probing, a common practice for some VFMs, is not recommended, as it is not representative of end-to-end fine-tuning. The benchmarking setup recommended in this paper enables a performance analysis of VFMs for semantic segmentation. The findings of such an analysis reveal that pretraining with promptable segmentation is not beneficial, whereas masked image modeling (MIM) with abstract representations is crucial, even more important than the type of supervision used. The code for efficiently fine-tuning VFMs for semantic segmentation can be accessed through the project page at: https://tue-mps.github.io/benchmark-vfm-ss/.
- Abstract(参考訳): 近年の視覚基礎モデル (VFM) は, 様々なタスクにおいて熟練度を示すが, セマンティックセグメンテーションを効果的に行うためには, 教師付き微調整が必要である。
それらのパフォーマンスのベンチマークは、現在のモデルを選択し、このタスクのために将来のモデル開発を導くのに不可欠です。
標準ベンチマークの欠如は比較を複雑にする。
そこで本研究では,VFMのセマンティックセグメンテーションにおける評価方法について検討する。
そのため、様々な設定下で様々なVFMを微調整し、個々の設定がパフォーマンスランキングやトレーニング時間に与える影響を評価する。
この結果に基づき、VFMのViT-B変種を16x16パッチサイズとリニアデコーダで微調整することが推奨されている。
データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。
VFMの一般的な実践である線形探索は、エンドツーエンドの微調整を代表していないため推奨されない。
本稿では, セマンティックセグメンテーションのためのVFMの性能解析を行う。
このような分析の結果,プロンプト可能なセグメンテーションによる事前トレーニングは有益ではないことが明らかとなった。一方,抽象表現を用いたマスク画像モデリング(MIM)は,使用した監視方式よりも重要である。
セマンティックセグメンテーションのためのVFMを効率的に微調整するためのコードは、プロジェクトのページからアクセスできる。
関連論文リスト
- Foundation Model or Finetune? Evaluation of few-shot semantic segmentation for river pollution [16.272314073324626]
ファンデーションモデル(FM)はAIの研究の一般的なトピックである。
本研究では,FMの性能を,セマンティックセグメンテーションのタスクにおける微調整された教師付きモデルと比較する。
微調整されたモデルは、データが不足している場合でも、テスト対象のFMより一貫して優れています。
論文 参考訳(メタデータ) (2024-09-05T17:59:32Z) - Variational Autoencoder for Anomaly Detection: A Comparative Study [1.9131868049527914]
本稿では,同時代の変分オートエンコーダ(VAE)アーキテクチャを異常検出に用い比較解析することを目的とする。
検討中のアーキテクチャ構成には、元々のVAEベースライン、ガウスランダムフィールド(VAE-GRF)を持つVAE、ビジョントランスフォーマー(ViT-VAE)を搭載したVAEが含まれる。
論文 参考訳(メタデータ) (2024-08-24T12:07:57Z) - Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation [14.931551206723041]
Weakly Supervised Semantic (WSSS) は、画像レベルのラベルなどの弱い監督を、セグメンテーションモデルをトレーニングするために採用している。
我々はWSSSに適した高度なアンサンブルアプローチであるORANDNetを提案する。
論文 参考訳(メタデータ) (2024-06-28T03:58:02Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation [2.7036595757881323]
セマンティック(MESS)のマルチドメイン評価のためのベンチマークを構築した。
MESSは、幅広いドメイン固有のデータセットにわたるパフォーマンスの全体的な分析を可能にする。
提案したMESSベンチマークを用いて,最近発表された8つのモデルを評価し,ゼロショット転送モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-06-27T14:47:43Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。