論文の概要: Multi-Content Interaction Network for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2303.06304v2
- Date: Tue, 2 May 2023 15:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 17:06:41.118399
- Title: Multi-Content Interaction Network for Few-Shot Segmentation
- Title(参考訳): 少数ショットセグメンテーションのためのマルチコンテンツインタラクションネットワーク
- Authors: Hao Chen, Yunlong Yu, Yonghan Dong, Zheming Lu, Yingming Li, and
Zhongfei Zhang
- Abstract要約: Few-Shot COCOは、サポート画像の制限とクラス内における大きな相違に挑戦している。
この問題を解決するために,MCINet(Multi-Content Interaction Network)を提案する。
MCINetは、他のクエリブランチから低レベルの構造情報を高レベルのセマンティック機能に組み込むことで、FSSを改善している。
- 参考スコア(独自算出の注目度): 37.80624074068096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Segmentation (FSS) is challenging for limited support images and
large intra-class appearance discrepancies. Most existing approaches focus on
extracting high-level representations of the same layers for support-query
correlations, neglecting the shift issue between different layers and scales,
due to the huge difference between support and query samples. In this paper, we
propose a Multi-Content Interaction Network (MCINet) to remedy this issue by
fully exploiting and interacting with the multi-scale contextual information
contained in the support-query pairs to supplement the same-layer correlations.
Specifically, MCINet improves FSS from the perspectives of boosting the query
representations by incorporating the low-level structural information from
another query branch into the high-level semantic features, enhancing the
support-query correlations by exploiting both the same-layer and adjacent-layer
features, and refining the predicted results by a multi-scale mask prediction
strategy, with which the different scale contents have bidirectionally
interacted. Experiments on two benchmarks demonstrate that our approach reaches
SOTA performances and outperforms the best competitors with many desirable
advantages, especially on the challenging COCO dataset.
- Abstract(参考訳): Few-Shot Segmentation (FSS) は,サポート画像の制限やクラス内外見の相違に難渋している。
既存のアプローチのほとんどは、サポートとクエリのサンプルの間に大きな違いがあるため、サポートとクエリの相関のために同じレイヤの高レベルな表現を抽出することに焦点を当てている。
本稿では,同層相関を補うために,サポートクエリペアに含まれるマルチスケールなコンテキスト情報を完全に活用し,対話することにより,この問題を解消するマルチコンテンツインタラクションネットワーク(mcinet)を提案する。
特に、MCINetは、他のクエリブランチからの低レベル構造情報を高レベルなセマンティック特徴に組み込むことにより、クエリ表現を強化し、同一層と隣接層の両方の機能を活用してサポートクエリ相関を強化し、異なるスケールのコンテンツが双方向に相互作用するマルチスケールマスク予測戦略によって予測結果を改善することにより、FSSを改善する。
2つのベンチマークの実験は、我々のアプローチがSOTAのパフォーマンスに到達し、多くの望ましい利点、特に挑戦的なCOCOデータセットで最高の競争相手を上回ることを実証している。
関連論文リスト
- Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Few-shot Semantic Segmentation with Support-induced Graph Convolutional
Network [28.46908214462594]
Few-shot semantic segmentation (FSS) は、いくつかの注釈付きサンプルで新しいオブジェクトのセグメンテーションを実現することを目的としている。
本稿では,クエリ画像中の遅延コンテキスト構造を明示的に抽出するために,Support-induced Graph Convolutional Network (SiGCN)を提案する。
論文 参考訳(メタデータ) (2023-01-09T08:00:01Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Progressive Multi-scale Consistent Network for Multi-class Fundus Lesion
Segmentation [28.58972084293778]
提案するプログレッシブ・フィーチャー・フュージョン(PFF)ブロックと動的アテンション・ブロック(DAB)を統合した,プログレッシブ・マルチスケール・一貫性ネットワーク(PMCNet)を提案する。
PFFブロックは、隣接するエンコーディング層からのマルチスケール機能を段階的に統合し、きめ細かい詳細と高レベルのセマンティクスを集約することで、各層の特徴学習を容易にする。
DABは、異なるスケールで融合した特徴から注意深い手がかりを動的に学習するように設計されているため、マルチスケール機能に存在する本質的な矛盾を円滑にすることを目的としている。
論文 参考訳(メタデータ) (2022-05-31T12:10:01Z) - CATrans: Context and Affinity Transformer for Few-Shot Segmentation [36.802347383825705]
Few-shot segmentation (FSS) は、注釈付きサポート画像が不足している場合に、新しいカテゴリを分割することを目的としている。
本研究では,提案するコンテキスト・アフィニティ変換器を用いて,コンテキスト・アフィニティ情報を効果的に統合する。
提案手法の有効性を実証するために実験を行い,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-04-27T10:20:47Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Learning to Combine: Knowledge Aggregation for Multi-Source Domain
Adaptation [56.694330303488435]
マルチソースドメイン適応(LtC-MSDA)フレームワークを併用する学習法を提案する。
簡単に言うと、知識グラフは様々なドメインのプロトタイプ上に構築され、セマンティックに隣接した表現間の情報伝達を実現する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-07-17T07:52:44Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。