論文の概要: Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts
- arxiv url: http://arxiv.org/abs/2407.02075v3
- Date: Fri, 25 Jul 2025 13:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.164066
- Title: Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts
- Title(参考訳): Label Anything:ビジュアルプロンプトによる複数クラスのFew-Shotセマンティックセマンティックセマンティックセグメンテーション
- Authors: Pasquale De Marinis, Nicola Fanelli, Raffaele Scaringi, Emanuele Colonna, Giuseppe Fiameni, Gennaro Vessio, Giovanna Castellano,
- Abstract要約: Few-shotのセマンティックセマンティックセマンティクスは、ラベル付きサンプルの限られた数だけを使用して、未確認のクラスからオブジェクトをセグメントすることを目的としている。
マルチプロンプト・マルチウェイ・複数ショットセマンティックセマンティックセマンティックセグメンテーションのために設計された,新しいトランスフォーマーベースのアーキテクチャであるLabel Anythingを紹介する。
- 参考スコア(独自算出の注目度): 10.262029691744921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot semantic segmentation aims to segment objects from previously unseen classes using only a limited number of labeled examples. In this paper, we introduce Label Anything, a novel transformer-based architecture designed for multi-prompt, multi-way few-shot semantic segmentation. Our approach leverages diverse visual prompts -- points, bounding boxes, and masks -- to create a highly flexible and generalizable framework that significantly reduces annotation burden while maintaining high accuracy. Label Anything makes three key contributions: ($\textit{i}$) we introduce a new task formulation that relaxes conventional few-shot segmentation constraints by supporting various types of prompts, multi-class classification, and enabling multiple prompts within a single image; ($\textit{ii}$) we propose a novel architecture based on transformers and attention mechanisms; and ($\textit{iii}$) we design a versatile training procedure allowing our model to operate seamlessly across different $N$-way $K$-shot and prompt-type configurations with a single trained model. Our extensive experimental evaluation on the widely used COCO-$20^i$ benchmark demonstrates that Label Anything achieves state-of-the-art performance among existing multi-way few-shot segmentation methods, while significantly outperforming leading single-class models when evaluated in multi-class settings. Code and trained models are available at https://github.com/pasqualedem/LabelAnything.
- Abstract(参考訳): Few-shotのセマンティックセマンティックセマンティクスは、ラベル付きサンプルの限られた数だけを使用して、未確認のクラスからオブジェクトをセグメントすることを目的としている。
本稿では,マルチプロンプト・マルチウェイ・マルチショットセマンティックセマンティックセマンティックセマンティクスのために設計された,トランスフォーマーをベースとした新しいアーキテクチャであるLabel Anythingを紹介する。
このアプローチでは、ポイント、バウンディングボックス、マスクといった多様な視覚的プロンプトを活用して、高い精度を維持しながらアノテーションの負担を大幅に軽減する、非常に柔軟で一般化可能なフレームワークを作成します。
Label Anythingは3つの重要なコントリビューションを提供している。 (\textit{i}$) 様々な種類のプロンプトをサポートし、マルチクラス分類をサポートし、単一のイメージ内で複数のプロンプトを可能にすることで、従来の小ショットセグメンテーション制約を緩和する新しいタスク定式化を導入する。 (\textit{ii}$) トランスフォーマーとアテンションメカニズムに基づいた新しいアーキテクチャを提案し、 (\textit{iii}$) 異なる$N$-way$K$-shotとプロンプトタイプの構成を1つのトレーニングモデルでシームレスに操作できるようにする多目的トレーニング手順を設計する。
広範に使われているCOCO-$20^i$ベンチマークの実験的評価は,既存の複数方向の複数ショットセグメンテーション手法において,ラベル・アレスティングが最先端の性能を達成し,マルチクラス設定で評価すると,先行する単一クラスモデルよりも大幅に優れていたことを示す。
コードとトレーニングされたモデルはhttps://github.com/pasqualedem/LabelAnything.comで入手できる。
関連論文リスト
- DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。
本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。
我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-06T01:42:28Z) - Class-Independent Increment: An Efficient Approach for Multi-label Class-Incremental Learning [49.65841002338575]
本稿では,MLCIL(Multi-label class-incremental Learning)問題に焦点をあてる。
マルチラベルサンプルに対して複数のクラスレベルの埋め込みを抽出する新しいクラス独立インクリメンタルネットワーク(CINet)を提案する。
クラス固有のトークンを構築することで、異なるクラスの知識を学び、保存する。
論文 参考訳(メタデータ) (2025-03-01T14:40:52Z) - LC-Protonets: Multi-Label Few-Shot Learning for World Music Audio Tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - In-Context Learning for Extreme Multi-Label Classification [29.627891261947536]
数千のクラスを持つマルチラベル分類問題は、文脈内学習だけでは解決が難しい。
本稿では,これらの問題に効率的に対処するために,LMとレトリバー間のマルチステップインタラクションを定義する汎用プログラムを提案する。
我々のソリューションは微調整を必要とせず、新しいタスクに容易に適用でき、迅速なエンジニアリングを緩和し、ラベル付きサンプルを数十個しか必要としない。
論文 参考訳(メタデータ) (2024-01-22T18:09:52Z) - Masked Cross-image Encoding for Few-shot Segmentation [16.445813548503708]
Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。
本研究では,オブジェクトの詳細を記述した共通視覚特性をキャプチャし,特徴の相互作用を高める双方向画像間の依存関係を学習する,Masked Cross-Image MCEという共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T05:36:39Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - Learning from Pseudo-labeled Segmentation for Multi-Class Object
Counting [35.652092907690694]
CAC(Class-Agnostic counting)は、様々な領域にまたがる多くの潜在的な応用がある。
目標は、いくつかの注釈付き例に基づいて、テスト中に任意のカテゴリのオブジェクトを数えることである。
擬似ラベルマスクを用いて学習したセグメンテーションモデルは、任意のマルチクラス画像に対して効果的に対象をローカライズできることを示す。
論文 参考訳(メタデータ) (2023-07-15T01:33:19Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - APANet: Adaptive Prototypes Alignment Network for Few-Shot Semantic
Segmentation [56.387647750094466]
Few-shotのセマンティックセマンティックセマンティクスは、指定されたクエリイメージに、ラベル付きサポートイメージのみで、新規クラスのオブジェクトをセグメントすることを目的としている。
ほとんどの高度なソリューションは、各クエリ機能を学習したクラス固有のプロトタイプにマッチさせることでセグメンテーションを実行するメトリクス学習フレームワークを利用している。
本稿では,クラス固有およびクラス非依存のプロトタイプを導入することで,適応型プロトタイプ表現を提案する。
論文 参考訳(メタデータ) (2021-11-24T04:38:37Z) - One-Class Meta-Learning: Towards Generalizable Few-Shot Open-Set
Classification [2.28438857884398]
本稿では,Meta Binary Cross-Entropy (Meta-BCE) とOne-class Meta-Learning (OCML) の2つの独立した単発一発一発分類手法を紹介する。
どちらの手法も、クローズドセットのパフォーマンスを低下させることなく、複数ショットのオープンセット設定で再トレーニングを行うことなく、既存の数ショットの学習方法を拡張することができる。
数発のマルチクラスのオープンセットと数発のワンクラスのタスクにおいて、最先端のメソッドを上回る。
論文 参考訳(メタデータ) (2021-09-14T17:52:51Z) - Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight
Transformer [112.95747173442754]
数ショットのセマンティックセグメンテーションモデルは典型的にはCNNエンコーダ、CNNデコーダ、単純な分類器から構成される。
既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。
本稿では,最も単純なコンポーネントである分類器にのみ焦点をあてて,メタ学習タスクの簡略化を提案する。
論文 参考訳(メタデータ) (2021-08-06T10:20:08Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - Universal-to-Specific Framework for Complex Action Recognition [114.78468658086572]
本稿では,複雑な行動認識のためのU2Sフレームワークを提案する。
U2Sフレームワークは、ユニバーサルネットワーク、カテゴリ固有のネットワーク、マスクネットワークという3つのワークで構成されている。
さまざまなベンチマークデータセットの実験では、U2Sフレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-07-13T01:49:07Z) - Few-shot 3D Point Cloud Semantic Segmentation [138.80825169240302]
本稿では,新しい注意型マルチプロトタイプトランスダクティブ・ショットポイント・クラウドセマンティックセマンティック・セマンティクス法を提案する。
提案手法は,雲のセマンティックセマンティックセグメンテーション設定の違いによるベースラインに比べて,顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2020-06-22T08:05:25Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。