論文の概要: Target-aware Bi-Transformer for Few-shot Segmentation
- arxiv url: http://arxiv.org/abs/2309.09492v1
- Date: Mon, 18 Sep 2023 05:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 15:01:21.420530
- Title: Target-aware Bi-Transformer for Few-shot Segmentation
- Title(参考訳): ショット分割のためのターゲット対応バイコンバータ
- Authors: Xianglin Wang, Xiaoliu Luo, Taiping Zhang
- Abstract要約: Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。
本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
- 参考スコア(独自算出の注目度): 4.3753381458828695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional semantic segmentation tasks require a large number of labels and
are difficult to identify unlearned categories. Few-shot semantic segmentation
(FSS) aims to use limited labeled support images to identify the segmentation
of new classes of objects, which is very practical in the real world. Previous
researches were primarily based on prototypes or correlations. Due to colors,
textures, and styles are similar in the same image, we argue that the query
image can be regarded as its own support image. In this paper, we proposed the
Target-aware Bi-Transformer Network (TBTNet) to equivalent treat of support
images and query image. A vigorous Target-aware Transformer Layer (TTL) also be
designed to distill correlations and force the model to focus on foreground
information. It treats the hypercorrelation as a feature, resulting a
significant reduction in the number of feature channels. Benefit from this
characteristic, our model is the lightest up to now with only 0.4M learnable
parameters. Futhermore, TBTNet converges in only 10% to 25% of the training
epochs compared to traditional methods. The excellent performance on standard
FSS benchmarks of PASCAL-5i and COCO-20i proves the efficiency of our method.
Extensive ablation studies were also carried out to evaluate the effectiveness
of Bi-Transformer architecture and TTL.
- Abstract(参考訳): 従来のセマンティックセグメンテーションタスクは多数のラベルを必要とし、未学習のカテゴリを特定するのが困難である。
Few-shot semantic segmentation (FSS) は、限定ラベル付きサポートイメージを使用して、オブジェクトの新たなクラスのセグメンテーションを特定することを目的としている。
以前の研究は主にプロトタイプや相関に基づいている。
色やテクスチャ,スタイルが同じ画像に類似しているため,クエリイメージを独自のサポートイメージとみなすことができる。
本稿では,支援画像と問合せ画像とを等価に扱うために,目標認識型bi-transformer network (tbtnet) を提案する。
TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
ハイパー相関を特徴として扱い、特徴チャネルの数を大幅に減少させる。
この特性の利点により、これまでに学習可能なパラメータが0.4mしかないモデルが最も軽量である。
さらに、TBTNetは従来の方法に比べてトレーニングエポックの10%から25%しか収束しない。
PASCAL-5i と COCO-20i の標準 FSS ベンチマークの優れた性能は,本手法の効率性を証明している。
また, Bi-Transformer アーキテクチャと TTL の有効性を評価するため, 広範囲なアブレーション試験を行った。
関連論文リスト
- FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。
従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。
サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文 参考訳(メタデータ) (2024-11-18T03:32:02Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and
Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。
本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。
提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文 参考訳(メタデータ) (2024-01-18T10:29:10Z) - Fully Attentional Networks with Self-emerging Token Labeling [108.53230681047617]
我々は、意味的に意味のあるパッチトークンラベルを生成するためにFANトークンラベル(FAN-TL)をトレーニングし、その後、トークンラベルとオリジナルクラスラベルの両方を使用するFAN学生モデルトレーニングステージを作成した。
提案したSTLフレームワークでは,ImageNet-1KおよびImageNet-C上で84.8%のTop-1精度と42.1%のmCEを実現し,余分なデータを使用しないImageNet-A(46.1%)とImageNet-R(56.6%)の新たな最先端設定を行う。
論文 参考訳(メタデータ) (2024-01-08T12:14:15Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Enhancing Few-shot Image Classification with Cosine Transformer [4.511561231517167]
Few-shot Cosine Transformer (FS-CT)は、サポートとクエリ間のリレーショナルマップである。
本手法は,1ショット学習と5ショット学習におけるミニイメージネット,CUB-200,CIFAR-FSの競合結果を示す。
我々のコサインアテンションを持つFS-CTは、広範囲のアプリケーションに適用可能な軽量でシンプルな数ショットアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-13T06:03:28Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Few-Shot Segmentation via Cycle-Consistent Transformer [74.49307213431952]
本稿では,サポートとターゲット画像間の画素ワイドな関係を利用して,数ショットのセマンティックセマンティックセグメンテーション作業を容易にすることに焦点を当てる。
本稿では, 有害なサポート機能を除去するために, 新規なサイクル一貫性アテンション機構を提案する。
提案したCyCTRは,従来の最先端手法と比較して著しく改善されている。
論文 参考訳(メタデータ) (2021-06-04T07:57:48Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。