論文の概要: A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models
- arxiv url: http://arxiv.org/abs/2401.11311v3
- Date: Tue, 03 Jun 2025 12:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.318163
- Title: A Novel Benchmark for Few-Shot Semantic Segmentation in the Era of Foundation Models
- Title(参考訳): 基礎モデルにおけるFew-Shot Semantic Segmentationの新しいベンチマーク
- Authors: Reda Bensaid, Vincent Gripon, François Leduc-Primeau, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux,
- Abstract要約: Few-shot semantic segmentation (FSS) はコンピュータビジョンにおいて重要な課題である。
一般化的特徴抽出器としての視覚基盤モデル(VFM)の出現に伴い,これらのモデルをFSSに適用することを模索する。
本稿では,このタスクに適した単純で簡単な適応プロセスを備えた,新しい現実的なベンチマークを提案する。
- 参考スコア(独自算出の注目度): 7.428199805959228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot semantic segmentation (FSS) is a crucial challenge in computer vision, driving extensive research into a diverse range of methods, from advanced meta-learning techniques to simple transfer learning baselines. With the emergence of vision foundation models (VFM) serving as generalist feature extractors, we seek to explore the adaptation of these models for FSS. While current FSS benchmarks focus on adapting pre-trained models to new tasks with few images, they emphasize in-domain generalization, making them less suitable for VFM trained on large-scale web datasets. To address this, we propose a novel realistic benchmark with a simple and straightforward adaptation process tailored for this task. Using this benchmark, we conduct a comprehensive comparative analysis of prominent VFM and semantic segmentation models. To evaluate their effectiveness, we leverage various adaption methods, ranging from linear probing to parameter efficient fine-tuning (PEFT) and full fine-tuning. Our findings show that models designed for segmentation can be outperformed by self-supervised (SSL) models. On the other hand, while PEFT methods yields competitive performance, they provide little discrepancy in the obtained results compared to other methods, highlighting the critical role of the feature extractor in determining results. To our knowledge, this is the first study on the adaptation of VFM for FSS.
- Abstract(参考訳): Few-shot semantic segmentation (FSS) はコンピュータビジョンにおいて重要な課題であり、高度なメタラーニング技術から単純なトランスファーラーニングベースラインまで幅広い手法の研究を推進している。
一般化的特徴抽出器としての視覚基盤モデル(VFM)の出現に伴い,これらのモデルをFSSに適用することを模索する。
現在のFSSベンチマークでは、トレーニング済みのモデルを少数のイメージで新しいタスクに適用することに重点を置いているが、ドメイン内の一般化を強調しており、大規模なWebデータセットでトレーニングされたVFMには適していない。
この問題に対処するために,本課題に適した単純で簡単な適応プロセスを備えた,新しい現実的なベンチマークを提案する。
このベンチマークを用いて、著名なVFMとセマンティックセグメンテーションモデルの包括的比較分析を行う。
提案手法の有効性を評価するため,線形探索からパラメータ最適化(PEFT),完全微調整まで,様々な適応手法を応用した。
セグメンテーションのために設計されたモデルは、自己監督型(SSL)モデルより優れていた。
一方,PEFT法は競争性能が向上する一方で,他の手法と比較して結果に差がみられず,特徴抽出器の判定における重要な役割を浮き彫りにしている。
我々の知る限り、この研究は、FSSに対するVFMの適応に関する最初の研究である。
関連論文リスト
- Adapting In-Domain Few-Shot Segmentation to New Domains without Retraining [53.963279865355105]
クロスドメイン小ショットセグメンテーション(CD-FSS)は、新しいドメインで新しいクラスのオブジェクトをセグメンテーションすることを目的としている。
多くのCD-FSSメソッドは、様々なドメイン一般化手法を用いて、ドメイン内FSSモデルを再設計し、再訓練する。
そこで,本研究では,FSSモデルを対象ドメインに適応させ,少数ショットラベル付きサポートサンプルからドメイン特性を学習する手法を提案する。
論文 参考訳(メタデータ) (2025-04-30T08:16:33Z) - DINOv2-powered Few-Shot Semantic Segmentation: A Unified Framework via Cross-Model Distillation and 4D Correlation Mining [30.564216896513596]
セマンティックセグメンテーションは、その一般化能力によって関心が高まっている。
近年,表現の伝達性向上のための基礎モデルが提案されている。
DINOv2エンコーダと軽量セグメンタのみを備えたFS-DINOを提案する。
論文 参考訳(メタデータ) (2025-04-22T07:47:06Z) - Exploring Few-Shot Defect Segmentation in General Industrial Scenarios with Metric Learning and Vision Foundation Models [8.96299670050608]
本稿では,多種多様な欠陥を有する幅広い産業製品において,FSS(数ショットセマンティックセマンティックセマンティックセマンティクス)を探索することを目的とする。
メタラーニングに基づくものやビジョンファウンデーションモデル(VFM)に基づくものなど、メトリックラーニングに基づくFSS手法を徹底的に検討する。
特徴マッチングに基づく新しい効率的なFDS手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T10:13:34Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。
我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。
このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文 参考訳(メタデータ) (2024-07-26T15:31:13Z) - Combining Denoising Autoencoders with Contrastive Learning to fine-tune Transformer Models [0.0]
本研究は,分類タスクのベースモデルを調整するための3段階手法を提案する。
我々は,DAE(Denoising Autoencoder)を用いたさらなるトレーニングを行うことで,モデルの信号をデータ配信に適用する。
さらに、教師付きコントラスト学習のための新しいデータ拡張手法を導入し、不均衡なデータセットを修正する。
論文 参考訳(メタデータ) (2024-05-23T11:08:35Z) - Implantable Adaptive Cells: A Novel Enhancement for Pre-Trained U-Nets in Medical Image Segmentation [0.0]
本稿では,医用画像分割におけるトレーニング済みニューラルネットワークの性能向上のための新しいアプローチを提案する。
本稿では, 部分連結DARTSをベースとした小型モジュールであるIAC(Indegable Adaptive Cell)のコンセプトを提案する。
MRIとCT画像を用いた4つの医学データセットの実験では、様々なU-Net構成に対して一貫した精度の向上が示されている。
論文 参考訳(メタデータ) (2024-05-06T12:40:15Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Explanation-Guided Training for Cross-Domain Few-Shot Classification [96.12873073444091]
クロスドメイン・ショット分類タスク(CD-FSC)は、データセットで表されるドメインをまたいで一般化する要件と、少数ショット分類を組み合わせたものである。
既存のFSCモデルに対する新しいトレーニング手法を提案する。
説明誘導学習はモデル一般化を効果的に改善することを示す。
論文 参考訳(メタデータ) (2020-07-17T07:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。