論文の概要: Efficient Masked Attention Transformer for Few-Shot Classification and Segmentation
- arxiv url: http://arxiv.org/abs/2507.23642v1
- Date: Thu, 31 Jul 2025 15:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.022027
- Title: Efficient Masked Attention Transformer for Few-Shot Classification and Segmentation
- Title(参考訳): Few-Shot分類とセグメンテーションのための効率的なマスク付アテンション変換器
- Authors: Dustin Carrión-Ojeda, Stefan Roth, Simone Schaub-Meyer,
- Abstract要約: Few-shot Classification and segmentation (FS-CS) は、複数ラベルの分類と多クラスセグメンテーションを共同で行うことに焦点を当てている。
本稿では,特に小物体の分類とセグメンテーションの精度を向上するEMAT(Efficient Masked Attention Transformer)を提案する。
EMATは、PASCAL-5$i$とCOCO-20$i$データセット上のすべてのFS-CSメソッドよりも、少なくとも4倍のトレーニング可能なパラメータを使用する。
- 参考スコア(独自算出の注目度): 13.555653637148701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot classification and segmentation (FS-CS) focuses on jointly performing multi-label classification and multi-class segmentation using few annotated examples. Although the current state of the art (SOTA) achieves high accuracy in both tasks, it struggles with small objects. To overcome this, we propose the Efficient Masked Attention Transformer (EMAT), which improves classification and segmentation accuracy, especially for small objects. EMAT introduces three modifications: a novel memory-efficient masked attention mechanism, a learnable downscaling strategy, and parameter-efficiency enhancements. EMAT outperforms all FS-CS methods on the PASCAL-5$^i$ and COCO-20$^i$ datasets, using at least four times fewer trainable parameters. Moreover, as the current FS-CS evaluation setting discards available annotations, despite their costly collection, we introduce two novel evaluation settings that consider these annotations to better reflect practical scenarios.
- Abstract(参考訳): Few-shot Classification and segmentation (FS-CS) は、注釈付き例の少ないマルチラベル分類とマルチクラスセグメンテーションを共同で行うことに焦点を当てている。
現在のSOTA(State-of-the-art)は、両方のタスクにおいて高い精度を達成するが、小さなオブジェクトと競合する。
そこで本研究では,特に小物体の分類・分節精度を向上するEMAT(Efficient Masked Attention Transformer)を提案する。
EMATは、新しいメモリ効率のマスク付きアテンションメカニズム、学習可能なダウンスケーリング戦略、パラメータ効率の向上の3つの修正を導入している。
EMATは、PASCAL-5$^i$とCOCO-20$^i$データセット上のすべてのFS-CSメソッドよりも、少なくとも4倍のトレーニング可能なパラメータを使用する。
さらに,現在のFS-CS評価設定では,コストのかかるアノテーションを廃止しているため,これらのアノテーションを現実的なシナリオを反映した2つの新しい評価設定を導入する。
関連論文リスト
- Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - Rethinking Few-Shot Adaptation of Vision-Language Models in Two Stages [28.834044800595716]
FSA(Few-Shot Adaptation)では、データは大量のパラメータに適合するには不十分であり、上記の非現実的である。
このスキームを2段階Few-Shot Adaptation (2SFS)と呼ぶ。
2SFS は最先端の手法と一致しているか,あるいは超越しているかを示す一方で,確立された手法は設定によって著しく劣化することを示す。
論文 参考訳(メタデータ) (2025-03-14T17:24:01Z) - Multi-Attribute Steering of Language Models via Targeted Intervention [56.93583799109029]
推論時間介入(ITI)は,大規模言語モデル(LLM)の振る舞いを特定の方向に操るための有望な手法として登場した。
マルチ属性・ターゲットステアリング(MAT-Steer)は,複数の属性をまたいだトークンレベルの選択的介入を目的とした,新しいステアリングフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T02:27:23Z) - Disentangling CLIP for Multi-Object Perception [58.73850193789384]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
DCLIPはCLIP機能を2つの相補的な目的から切り離すフレームワークである。
実験の結果,DCLIPはCLIPと比較してクラス間特徴類似度を30%削減できることがわかった。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Discriminative Sample-Guided and Parameter-Efficient Feature Space Adaptation for Cross-Domain Few-Shot Learning [0.0]
クロスドメインの少ショット分類は、それまで見つからなかった領域で新しいクラスを学ぶという難しい課題を示す。
我々は,小データセット上の多数のパラメータの微調整に伴うオーバーフィッティングに対処する,軽量なパラメータ効率適応手法を提案する。
我々は,従来の遠心波を識別的サンプル認識損失関数に置き換え,クラス間およびクラス内分散に対するモデルの感度を高める。
論文 参考訳(メタデータ) (2024-03-07T13:49:29Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Task-Adaptive Feature Transformer for Few-Shot Segmentation [21.276981570672064]
タスク適応型特徴変換器 (TAFT) の少数ショットセグメンテーションのための学習可能なモジュールを提案する。
TAFTは、タスク固有の高レベル機能を、セグメンテーションジョブに適したタスクに依存しない一連の特徴に線形に変換する。
PASCAL-$5i$データセットの実験では、この組み合わせがセグメンテーションアルゴリズムに数発の学習機能を追加することに成功している。
論文 参考訳(メタデータ) (2020-10-22T04:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。