Fugu-MT 論文翻訳(概要): Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention

論文の概要: Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention

arxiv url: http://arxiv.org/abs/2401.09866v1
Date: Thu, 18 Jan 2024 10:29:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 17:11:27.332186
Title: Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention
Title（参考訳）: インスタンス対応データ拡張とローカルコンセンサスガイドによるFew-Shotセグメンテーションの促進
Authors: Li Guo, Haoming Liu, Yuxuan Xia, Chengyu Zhang, Xiaochen Lu
Abstract要約: 少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
参考スコア（独自算出の注目度）: 7.939095881813804
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot segmentation aims to train a segmentation model that can fast adapt to a novel task for which only a few annotated images are provided. Most recent models have adopted a prototype-based paradigm for few-shot inference. These approaches may have limited generalization capacity beyond the standard 1- or 5-shot settings. In this paper, we closely examine and reevaluate the fine-tuning based learning scheme that fine-tunes the classification layer of a deep segmentation network pre-trained on diverse base classes. To improve the generalizability of the classification layer optimized with sparsely annotated samples, we introduce an instance-aware data augmentation (IDA) strategy that augments the support images based on the relative sizes of the target objects. The proposed IDA effectively increases the support set's diversity and promotes the distribution consistency between support and query images. On the other hand, the large visual difference between query and support images may hinder knowledge transfer and cripple the segmentation performance. To cope with this challenge, we introduce the local consensus guided cross attention (LCCA) to align the query feature with support features based on their dense correlation, further improving the model's generalizability to the query image. The significant performance improvements on the standard few-shot segmentation benchmarks PASCAL-$5^i$ and COCO-$20^i$ verify the efficacy of our proposed method.
Abstract（参考訳）: 少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。最近のモデルでは、数発の推論にプロトタイプベースのパラダイムを採用している。これらのアプローチは、標準の1ショットや5ショット以上の一般化能力に制限がある。本稿では,様々な基礎クラスで事前学習したディープセグメンテーションネットワークの分類層を微調整する微調整型学習手法について,精査と再評価を行う。 sparsely annotated sampleで最適化された分類層の一般化性を向上させるために,対象オブジェクトの相対サイズに基づいてサポート画像を拡張するインスタンスアウェアデータ拡張(ida)戦略を導入する。提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。一方,問合せ画像とサポート画像の視覚差が大きいため,知識伝達が阻害され,セグメンテーション性能が低下する可能性がある。この課題に対処するため,我々は,局所的コンセンサス誘導クロスアテンション (lcca) を導入することで,クエリの特徴を,その密接な相関に基づくサポート機能と整合させ,クエリ画像に対するモデルの一般化性をさらに向上させる。 PASCAL-$5^i$およびCOCO-$20^i$の標準ショットセグメンテーションベンチマークの性能改善は,提案手法の有効性を検証する。

関連論文リスト

No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文参考訳（メタデータ） (2025-07-03T16:59:01Z)
FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文参考訳（メタデータ） (2024-11-18T03:32:02Z)
Target-aware Bi-Transformer for Few-shot Segmentation [4.3753381458828695]
Few-shot semantic segmentation (FSS)は、限定ラベル付きサポートイメージを使用して、新しいクラスのオブジェクトのセグメンテーションを特定することを目的としている。本稿では,サポート画像とクエリ画像の等価処理を行うために,TBTNet(Target-aware Bi-Transformer Network)を提案する。 TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。
論文参考訳（メタデータ） (2023-09-18T05:28:51Z)
Few-shot Semantic Segmentation with Support-induced Graph Convolutional Network [28.46908214462594]
Few-shot semantic segmentation (FSS) は、いくつかの注釈付きサンプルで新しいオブジェクトのセグメンテーションを実現することを目的としている。本稿では,クエリ画像中の遅延コンテキスト構造を明示的に抽出するために,Support-induced Graph Convolutional Network (SiGCN)を提案する。
論文参考訳（メタデータ） (2023-01-09T08:00:01Z)
CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T06:14:51Z)
Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。本稿では,問題を緩和するための新鮮で直接的な知見を提案する。提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文参考訳（メタデータ） (2022-03-15T03:08:27Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Few-Shot Segmentation via Cycle-Consistent Transformer [74.49307213431952]
本稿では,サポートとターゲット画像間の画素ワイドな関係を利用して,数ショットのセマンティックセマンティックセグメンテーション作業を容易にすることに焦点を当てる。本稿では, 有害なサポート機能を除去するために, 新規なサイクル一貫性アテンション機構を提案する。提案したCyCTRは,従来の最先端手法と比較して著しく改善されている。
論文参考訳（メタデータ） (2021-06-04T07:57:48Z)
SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文参考訳（メタデータ） (2021-04-19T11:21:47Z)
Self-Guided and Cross-Guided Learning for Few-Shot Segmentation [12.899804391102435]
単発セグメンテーションのための自己誘導学習手法を提案する。注釈付き支持画像の初期予測を行うことにより、被覆および検出された前景領域を一次および補助支持ベクトルに符号化する。プライマリサポートベクターと補助サポートベクターの両方を集約することで、クエリイメージ上でより良いセグメンテーション性能が得られます。
論文参考訳（メタデータ） (2021-03-30T07:36:41Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
BriNet: Towards Bridging the Intra-class and Inter-class Gaps in One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文参考訳（メタデータ） (2020-08-14T07:45:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。