論文の概要: Efficient Masked Attention Transformer for Few-Shot Classification and Segmentation
- arxiv url: http://arxiv.org/abs/2507.23642v1
- Date: Thu, 31 Jul 2025 15:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.022027
- Title: Efficient Masked Attention Transformer for Few-Shot Classification and Segmentation
- Title(参考訳): Few-Shot分類とセグメンテーションのための効率的なマスク付アテンション変換器
- Authors: Dustin Carrión-Ojeda, Stefan Roth, Simone Schaub-Meyer,
- Abstract要約: Few-shot Classification and segmentation (FS-CS) は、複数ラベルの分類と多クラスセグメンテーションを共同で行うことに焦点を当てている。
本稿では,特に小物体の分類とセグメンテーションの精度を向上するEMAT(Efficient Masked Attention Transformer)を提案する。
EMATは、PASCAL-5$i$とCOCO-20$i$データセット上のすべてのFS-CSメソッドよりも、少なくとも4倍のトレーニング可能なパラメータを使用する。
- 参考スコア(独自算出の注目度): 13.555653637148701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot classification and segmentation (FS-CS) focuses on jointly performing multi-label classification and multi-class segmentation using few annotated examples. Although the current state of the art (SOTA) achieves high accuracy in both tasks, it struggles with small objects. To overcome this, we propose the Efficient Masked Attention Transformer (EMAT), which improves classification and segmentation accuracy, especially for small objects. EMAT introduces three modifications: a novel memory-efficient masked attention mechanism, a learnable downscaling strategy, and parameter-efficiency enhancements. EMAT outperforms all FS-CS methods on the PASCAL-5$^i$ and COCO-20$^i$ datasets, using at least four times fewer trainable parameters. Moreover, as the current FS-CS evaluation setting discards available annotations, despite their costly collection, we introduce two novel evaluation settings that consider these annotations to better reflect practical scenarios.
- Abstract(参考訳): Few-shot Classification and segmentation (FS-CS) は、注釈付き例の少ないマルチラベル分類とマルチクラスセグメンテーションを共同で行うことに焦点を当てている。
現在のSOTA(State-of-the-art)は、両方のタスクにおいて高い精度を達成するが、小さなオブジェクトと競合する。
そこで本研究では,特に小物体の分類・分節精度を向上するEMAT(Efficient Masked Attention Transformer)を提案する。
EMATは、新しいメモリ効率のマスク付きアテンションメカニズム、学習可能なダウンスケーリング戦略、パラメータ効率の向上の3つの修正を導入している。
EMATは、PASCAL-5$^i$とCOCO-20$^i$データセット上のすべてのFS-CSメソッドよりも、少なくとも4倍のトレーニング可能なパラメータを使用する。
さらに,現在のFS-CS評価設定では,コストのかかるアノテーションを廃止しているため,これらのアノテーションを現実的なシナリオを反映した2つの新しい評価設定を導入する。
関連論文リスト
- Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - Disentangling CLIP for Multi-Object Perception [58.73850193789384]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
DCLIPはCLIP機能を2つの相補的な目的から切り離すフレームワークである。
実験の結果,DCLIPはCLIPと比較してクラス間特徴類似度を30%削減できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot Learning [0.0]
クロスドメインの少ショット分類は、それまで見つからなかった領域で新しいクラスを学ぶという難しい課題を示す。
我々は,小データセット上の多数のパラメータの微調整に伴うオーバーフィッティングに対処する,軽量なパラメータ効率適応手法を提案する。
我々は,従来の遠心波を識別的サンプル認識損失関数に置き換え,クラス間およびクラス内分散に対するモデルの感度を高める。
論文 参考訳(メタデータ) (2024-03-07T13:49:29Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。