論文の概要: A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of
Foundation Models
- arxiv url: http://arxiv.org/abs/2401.11311v1
- Date: Sat, 20 Jan 2024 19:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-01-23 17:07:25.510241
- Title: A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of
Foundation Models
- Title(参考訳): 基礎モデルにおけるFew-Shot Semantic Segmentationの新しいベンチマーク
- Authors: Reda Bensaid, Vincent Gripon, Fran\c{c}ois Leduc-Primeau, Lukas Mauch,
Ghouthi Boukli Hacene, Fabien Cardinaux
- Abstract要約: DINO V2, Segment Anything, CLIP, Masked AutoEncoders, COCOデータセットで事前トレーニングされた簡単なResNet50について検討した。
本研究は,新しいセグメンテーションタスクへの適応性に着目し,少数のセグメンテーション画像のみを活用する。
本研究は,適応技術自体の複雑さよりも,頑健な特徴抽出器を選択することの重要性を強調した。
- 参考スコア(独自算出の注目度): 4.556379212564313
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, the rapid evolution of computer vision has seen the
emergence of various vision foundation models, each tailored to specific data
types and tasks. While large language models often share a common pretext task,
the diversity in vision foundation models arises from their varying training
objectives. In this study, we delve into the quest for identifying the most
effective vision foundation models for few-shot semantic segmentation, a
critical task in computer vision. Specifically, we conduct a comprehensive
comparative analysis of four prominent foundation models: DINO V2, Segment
Anything, CLIP, Masked AutoEncoders, and a straightforward ResNet50 pre-trained
on the COCO dataset. Our investigation focuses on their adaptability to new
semantic segmentation tasks, leveraging only a limited number of segmented
images. Our experimental findings reveal that DINO V2 consistently outperforms
the other considered foundation models across a diverse range of datasets and
adaptation methods. This outcome underscores DINO V2's superior capability to
adapt to semantic segmentation tasks compared to its counterparts. Furthermore,
our observations indicate that various adapter methods exhibit similar
performance, emphasizing the paramount importance of selecting a robust feature
extractor over the intricacies of the adaptation technique itself. This insight
sheds light on the critical role of feature extraction in the context of
few-shot semantic segmentation. This research not only contributes valuable
insights into the comparative performance of vision foundation models in the
realm of few-shot semantic segmentation but also highlights the significance of
a robust feature extractor in this domain.
- Abstract(参考訳): 近年、コンピュータビジョンの急速な進化により、様々なビジョン基盤モデルが出現し、それぞれが特定のデータタイプやタスクに合わせている。
大きな言語モデルは共通の前提課題を共有することが多いが、視覚基盤モデルの多様性は様々な訓練目標から生じる。
本研究では,コンピュータビジョンにおける重要な課題であるセマンティックセグメンテーション(セマンティックセグメンテーション)において,最も効果的な視覚基盤モデルを探索する。
具体的には、DINO V2、Segment Anything、CLIP、Masked AutoEncoders、COCOデータセットで事前トレーニングされたResNet50の4つの主要な基盤モデルの包括的な比較分析を行う。
本研究は,新しいセマンティクスセグメンテーションタスクへの適応性に着目し,限られた数のセグメンテーション画像のみを活用する。
実験結果から,DINO V2は様々なデータセットや適応手法において,他の基盤モデルよりも一貫して優れていることがわかった。
この結果は、dino v2がセマンティクスセグメンテーションタスクに適応する能力が、それよりも優れていることを浮き彫りにしている。
さらに, 適応手法自体の複雑度よりもロバストな特徴抽出器を選択することの重要性を強調し, 様々なアダプタ手法が類似した性能を示すことを示す。
この洞察は、少数ショット意味セグメンテーションの文脈における特徴抽出の重要役割に光を当てている。
本研究は,少数ショットセマンティックセグメンテーションの領域における視覚基盤モデルの比較性能に関する貴重な知見を提供するだけでなく,この領域におけるロバストな特徴抽出器の重要性も強調する。
関連論文リスト
- Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。
多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。
そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T08:16:33Z) - DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。
近年,表現の伝達性向上のための基礎モデルが提案されている。
DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文 参考訳(メタデータ) (2025-04-22T07:47:06Z) - Exploring Few-Shot Defect Segmentation in General Industrial Scenarios with Metric Learning and Vision Foundation Models [8.96299670050608]
本稿では,多種多様な欠陥を有する幅広い産業製品において,FSS(数ショットセマンティックセマンティックセマンティックセマンティクス)を探索することを目的とする。
メタラーニングに基づくものやビジョンファウンデーションモデル(VFM)に基づくものなど、メトリックラーニングに基づくFSS手法を徹底的に検討する。
特徴マッチングに基づく新しい効率的なFDS手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T10:13:34Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。
我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。
このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文 参考訳(メタデータ) (2024-07-26T15:31:13Z) - Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。
我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。
さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文 参考訳(メタデータ) (2024-05-23T11:08:35Z) - Implantable Adaptive Cells: A Novel Enhancement for Pre-Trained U-Nets in Medical Image Segmentation [0.0]
本稿では,医用画像分割におけるトレーニング済みニューラルネットワークの性能向上のための新しいアプローチを提案する。
本稿では, 部分連結DARTSをベースとした小型モジュールであるIAC(Indegable Adaptive Cell)のコンセプトを提案する。
MRIとCT画像を用いた4つの医学データセットの実験では、様々なU-Net構成に対して一貫した精度の向上が示されている。
論文 参考訳(メタデータ) (2024-05-06T12:40:15Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。