論文の概要: Reference Twice: A Simple and Unified Baseline for Few-Shot Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2301.01156v1
- Date: Tue, 3 Jan 2023 15:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:50:05.245389
- Title: Reference Twice: A Simple and Unified Baseline for Few-Shot Instance
Segmentation
- Title(参考訳): Reference Twice: Few-Shotインスタンスセグメンテーションのためのシンプルで統一されたベースライン
- Authors: Yue Han, Jiangning Zhang, Zhucun Xue, Chao Xu, Xintian Shen, Yabiao
Wang, Chengjie Wang, Yong Liu, Xiangtai Li
- Abstract要約: FSIS(Few Shot Instance)は、いくつかのサポート例を限定して、新しいクラスを検出し、セグメンテーションするモデルを必要とする。
本研究では、FSISとインクリメンタルな変種に対するシンプルだが統一されたソリューションを探求し、Reference Twice(RefT)という新しいフレームワークを導入する。
- 参考スコア(独自算出の注目度): 33.933160661150154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few Shot Instance Segmentation (FSIS) requires models to detect and segment
novel classes with limited several support examples. In this work, we explore a
simple yet unified solution for FSIS as well as its incremental variants, and
introduce a new framework named Reference Twice (RefT) to fully explore the
relationship between support/query features based on a Transformer-like
framework. Our key insights are two folds: Firstly, with the aid of support
masks, we can generate dynamic class centers more appropriately to re-weight
query features. Secondly, we find that support object queries have already
encoded key factors after base training. In this way, the query features can be
enhanced twice from two aspects, i.e., feature-level and instance-level. In
particular, we firstly design a mask-based dynamic weighting module to enhance
support features and then propose to link object queries for better calibration
via cross-attention. After the above steps, the novel classes can be improved
significantly over our strong baseline. Additionally, our new framework can be
easily extended to incremental FSIS with minor modification. When benchmarking
results on the COCO dataset for FSIS, gFSIS, and iFSIS settings, our method
achieves a competitive performance compared to existing approaches across
different shots, e.g., we boost nAP by noticeable +8.2/+9.4 over the current
state-of-the-art FSIS method for 10/30-shot. We further demonstrate the
superiority of our approach on Few Shot Object Detection. Code and model will
be available.
- Abstract(参考訳): FSIS(Few Shot Instance Segmentation)は、いくつかのサポート例を限定して、新しいクラスを検出し、セグメントするモデルを必要とする。
本稿では,FSISとインクリメンタルな変種に対するシンプルな統一されたソリューションについて検討し,Transformerライクなフレームワークに基づいたサポート/クエリ機能間の関係を深く探求するReference Twice(RefT)という新しいフレームワークを紹介する。
まず、サポートマスクの助けを借りて、クエリ機能を再重み付けするために、動的クラスセンタをより適切に生成できます。
第二に、サポート対象クエリはベーストレーニング後にすでに重要な要素をコード化している。
このように、クエリ機能は2つの側面、すなわち機能レベルとインスタンスレベルから拡張することができる。
具体的には,まず,サポート機能を強化するためにマスクベースの動的重み付けモジュールを設計,次にオブジェクトクエリをリンクして,クロスアテンションによるキャリブレーションを改善することを提案する。
上記のステップの後、新しいクラスは我々の強力なベースラインよりも大幅に改善できます。
さらに、我々の新しいフレームワークは、小さな修正で簡単にインクリメンタルFSISに拡張できます。
例えば、FSIS、gFSIS、iFSISのCOCOデータセットのベンチマーク結果のベンチマークでは、現在の10/30ショットに対する最先端のFSISメソッドよりも、強調可能な+8.2/+9.4でnAPを向上するなど、さまざまなショットにわたる既存のアプローチと比較して、競合的なパフォーマンスを実現しています。
さらに,Few Shot Object Detectionに対するアプローチの優位性を示す。
コードとモデルは利用可能だ。
関連論文リスト
- UIFormer: A Unified Transformer-based Framework for Incremental Few-Shot Object Detection and Instance Segmentation [38.331860053615955]
本稿では,Transformerアーキテクチャを用いたインクリメンタルな小ショットオブジェクト検出(iFSOD)とインスタンスセグメンテーション(iFSIS)のための新しいフレームワークを提案する。
私たちのゴールは、新しいオブジェクトクラスのいくつかの例しか利用できない状況に対して最適なソリューションを作ることです。
論文 参考訳(メタデータ) (2024-11-13T12:29:44Z) - SMILe: Leveraging Submodular Mutual Information For Robust Few-Shot Object Detection [2.0755366440393743]
Few-Shot Object Detection (FSOD) において、オブジェクトクラスの融合と忘れは重要な課題である。
本稿では,相互情報機能を導入した新しいサブモジュール型相互情報学習フレームワークを提案する。
提案手法は,バックボーンアーキテクチャに依存しないFSODの既存手法に一般化する。
論文 参考訳(メタデータ) (2024-07-02T20:53:43Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Boosting Few-shot 3D Point Cloud Segmentation via Query-Guided
Enhancement [30.017448714419455]
本稿では,PC-FSSモデルの改良手法を提案する。
従来のPC-FSSでは,クエリサンプルの新規クラスを識別するために,サポートプロトタイプのカテゴリ情報を直接活用する手法とは異なり,モデル性能を著しく向上させる2つの重要な側面を同定する。
論文 参考訳(メタデータ) (2023-08-06T18:07:45Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。