論文の概要: MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.13864v1
- Date: Tue, 23 May 2023 09:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:27:50.523699
- Title: MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation
- Title(参考訳): MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation
- Authors: Yong Yang and Qiong Chen and Yuan Feng and Tianlin Huang
- Abstract要約: 既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
- 参考スコア(独自算出の注目度): 6.053853367809978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing few-shot segmentation methods are based on the meta-learning
strategy and extract instance knowledge from a support set and then apply the
knowledge to segment target objects in a query set. However, the extracted
knowledge is insufficient to cope with the variable intra-class differences
since the knowledge is obtained from a few samples in the support set. To
address the problem, we propose a multi-information aggregation network
(MIANet) that effectively leverages the general knowledge, i.e., semantic word
embeddings, and instance information for accurate segmentation. Specifically,
in MIANet, a general information module (GIM) is proposed to extract a general
class prototype from word embeddings as a supplement to instance information.
To this end, we design a triplet loss that treats the general class prototype
as an anchor and samples positive-negative pairs from local features in the
support set. The calculated triplet loss can transfer semantic similarities
among language identities from a word embedding space to a visual
representation space. To alleviate the model biasing towards the seen training
classes and to obtain multi-scale information, we then introduce a
non-parametric hierarchical prior module (HPM) to generate unbiased
instance-level information via calculating the pixel-level similarity between
the support and query image features. Finally, an information fusion module
(IFM) combines the general and instance information to make predictions for the
query image. Extensive experiments on PASCAL-5i and COCO-20i show that MIANet
yields superior performance and set a new state-of-the-art. Code is available
at https://github.com/Aldrich2y/MIANet.
- Abstract(参考訳): 既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて、サポートセットからインスタンス知識を抽出し、クエリセット内のターゲットオブジェクトのセグメンテーションにその知識を適用する。
しかし, 抽出した知識は, サポートセット内のサンプルから得られた知識から, クラス内差に対処するには不十分である。
そこで本研究では,汎用知識(意味語埋め込み,インスタンス情報)を効果的に活用し,正確なセグメンテーションを実現する多情報集約ネットワーク(mianet)を提案する。
特にMIANetでは,汎用情報モジュール (GIM) が提案され,例情報の補足として単語埋め込みから一般クラスプロトタイプを抽出する。
そこで我々は,一般クラスプロトタイプをアンカーとして扱う三重項損失を設計し,サポートセットの局所特徴から正負のペアをサンプリングする。
計算された三重項損失は、単語埋め込み空間から視覚表現空間へ言語アイデンティティ間の意味的類似性を伝達することができる。
学習クラスに対するモデルの偏りを緩和し,マルチスケール情報を得るために,非パラメトリック階層型事前モジュール(hpm)を導入し,サポートと問い合わせ画像の特徴のピクセルレベルの類似度を算出し,不偏のインスタンスレベル情報を生成する。
最後に、情報融合モジュール(IFM)は、一般情報とインスタンス情報を組み合わせてクエリ画像の予測を行う。
PASCAL-5iとCOCO-20iの大規模な実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
コードはhttps://github.com/Aldrich2y/MIANetで入手できる。
関連論文リスト
- SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - MatchSeg: Towards Better Segmentation via Reference Image Matching [5.55078598520531]
ほとんどショットラーニングは、サポートセットとして知られる小さなラベル付きデータセットを使用して、新しいラベル付きイメージの予測ラベルをガイドすることで、注釈付きデータの必要性を克服することを目的としている。
このパラダイムに着想を得たMatchSegは,戦略的基準画像マッチングによる医用画像のセグメンテーションを強化する新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-23T18:04:58Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Intermediate Prototype Mining Transformer for Few-Shot Semantic
Segmentation [119.51445225693382]
Few-shotのセマンティックセマンティックセマンティクスは、いくつかのアノテーション付きサポートイメージの条件下で、ターゲットオブジェクトをクエリにセグメントすることを目的としている。
そこで本研究では,提案クエリから決定論的カテゴリ情報と適応的カテゴリ知識の両方をマイニングする中間プロトタイプを提案する。
各IPMT層では,サポート機能とクエリ機能の両方のオブジェクト情報をプロトタイプに伝達し,それを使ってクエリ機能マップを活性化する。
論文 参考訳(メタデータ) (2022-10-13T06:45:07Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Robust 3D Scene Segmentation through Hierarchical and Learnable
Part-Fusion [9.275156524109438]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、AR/VRといったいくつかのシーン理解アプリケーションのための基本的なビルディングブロックである。
従来の手法では、階層的で反復的な手法を用いて意味や事例情報を融合するが、文脈融合における学習性は欠如している。
本稿では,セグメンテーション・フュージョン(Seegment-Fusion)について述べる。
論文 参考訳(メタデータ) (2021-11-16T13:14:47Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Learn to Learn Metric Space for Few-Shot Segmentation of 3D Shapes [17.217954254022573]
メタラーニングに基づく3次元形状分割手法を提案する。
本稿では,ShapeNet部データセットにおける提案手法の優れた性能を,既存のベースラインや最先端の半教師手法と比較し,いくつかのシナリオで示す。
論文 参考訳(メタデータ) (2021-07-07T01:47:00Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。