論文の概要: Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts
- arxiv url: http://arxiv.org/abs/2407.02075v1
- Date: Tue, 2 Jul 2024 09:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 16:04:54.491757
- Title: Label Anything: Multi-Class Few-Shot Semantic Segmentation with Visual Prompts
- Title(参考訳): Label Anything:ビジュアルプロンプトによる複数クラスのFew-Shotセマンティックセマンティックセマンティックセグメンテーション
- Authors: Pasquale De Marinis, Nicola Fanelli, Raffaele Scaringi, Emanuele Colonna, Giuseppe Fiameni, Gennaro Vessio, Giovanna Castellano,
- Abstract要約: 少ショットセマンティックセグメンテーション(FSS)用に設計された革新的なニューラルネットワークアーキテクチャであるLabel Anythingを紹介します。
Label Anythingは、クラス毎に必要最小限の例で、複数のクラスにまたがる顕著な一般化性を示す。
包括的実験検証、特にCOCO-20i$ベンチマークにおける最先端の結果の達成は、Ravell Anythingの堅牢な一般化と柔軟性を裏付けるものです。
- 参考スコア(独自算出の注目度): 10.262029691744921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Label Anything, an innovative neural network architecture designed for few-shot semantic segmentation (FSS) that demonstrates remarkable generalizability across multiple classes with minimal examples required per class. Diverging from traditional FSS methods that predominantly rely on masks for annotating support images, Label Anything introduces varied visual prompts -- points, bounding boxes, and masks -- thereby enhancing the framework's versatility and adaptability. Unique to our approach, Label Anything is engineered for end-to-end training across multi-class FSS scenarios, efficiently learning from diverse support set configurations without retraining. This approach enables a "universal" application to various FSS challenges, ranging from $1$-way $1$-shot to complex $N$-way $K$-shot configurations while remaining agnostic to the specific number of class examples. This innovative training strategy reduces computational requirements and substantially improves the model's adaptability and generalization across diverse segmentation tasks. Our comprehensive experimental validation, particularly achieving state-of-the-art results on the COCO-$20^i$ benchmark, underscores Label Anything's robust generalization and flexibility. The source code is publicly available at: https://github.com/pasqualedem/LabelAnything.
- Abstract(参考訳): これは、クラス毎に必要最小限の例で複数のクラスにまたがる顕著な一般化性を実証する、数ショットセマンティックセグメンテーション(FSS)用に設計された革新的なニューラルネットワークアーキテクチャである。
サポートイメージのアノテートにマスクに大きく依存する従来のFSSメソッドとは違い,Ravell Anythingでは,ポイントやバウンディングボックス,マスクなど,さまざまな視覚的なプロンプトを導入して,フレームワークの汎用性と適応性の向上を実現している。
このアプローチに似て、Label Anythingは、マルチクラスのFSSシナリオをまたいだエンドツーエンドのトレーニングのために設計されています。
このアプローチは、$$$-way $1$-shotから複雑な$N$-way $K$-shot設定まで、さまざまなFSSの課題に対して"ユニバーサル"なアプリケーションを可能にすると同時に、特定のクラスの例の数に依存しないままである。
この革新的なトレーニング戦略は、計算要求を減らし、様々なセグメンテーションタスクにおけるモデルの適応性と一般化を大幅に改善する。
包括的実験検証,特にCOCO-$20^i$ベンチマークの最先端結果の達成は,Ravell Anythingの堅牢な一般化と柔軟性を裏付けるものだ。
ソースコードは、https://github.com/pasqualedem/LabelAnything.comで公開されている。
関連論文リスト
- Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing [66.6712018832575]
ドメイン一般化 (DG) ベースの Face Anti-Spoofing (FAS) は、目に見えないドメインにおけるモデルの性能を改善することを目的としている。
私たちはCLIPのような大規模VLMを利用し、テキスト機能を利用して分類器の重みを動的に調整し、一般化可能な視覚的特徴を探索する。
論文 参考訳(メタデータ) (2024-03-21T11:58:50Z) - In-Context Learning for Extreme Multi-Label Classification [29.627891261947536]
数千のクラスを持つマルチラベル分類問題は、文脈内学習だけでは解決が難しい。
本稿では,これらの問題に効率的に対処するために,LMとレトリバー間のマルチステップインタラクションを定義する汎用プログラムを提案する。
我々のソリューションは微調整を必要とせず、新しいタスクに容易に適用でき、迅速なエンジニアリングを緩和し、ラベル付きサンプルを数十個しか必要としない。
論文 参考訳(メタデータ) (2024-01-22T18:09:52Z) - Masked Cross-image Encoding for Few-shot Segmentation [16.445813548503708]
Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。
本研究では,オブジェクトの詳細を記述した共通視覚特性をキャプチャし,特徴の相互作用を高める双方向画像間の依存関係を学習する,Masked Cross-Image MCEという共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T05:36:39Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - APANet: Adaptive Prototypes Alignment Network for Few-Shot Semantic
Segmentation [56.387647750094466]
Few-shotのセマンティックセマンティックセマンティクスは、指定されたクエリイメージに、ラベル付きサポートイメージのみで、新規クラスのオブジェクトをセグメントすることを目的としている。
ほとんどの高度なソリューションは、各クエリ機能を学習したクラス固有のプロトタイプにマッチさせることでセグメンテーションを実行するメトリクス学習フレームワークを利用している。
本稿では,クラス固有およびクラス非依存のプロトタイプを導入することで,適応型プロトタイプ表現を提案する。
論文 参考訳(メタデータ) (2021-11-24T04:38:37Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Universal-to-Specific Framework for Complex Action Recognition [114.78468658086572]
本稿では,複雑な行動認識のためのU2Sフレームワークを提案する。
U2Sフレームワークは、ユニバーサルネットワーク、カテゴリ固有のネットワーク、マスクネットワークという3つのワークで構成されている。
さまざまなベンチマークデータセットの実験では、U2Sフレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-07-13T01:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。