論文の概要: Holistic Prototype Attention Network for Few-Shot VOS
- arxiv url: http://arxiv.org/abs/2307.07933v1
- Date: Sun, 16 Jul 2023 03:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:01:55.535929
- Title: Holistic Prototype Attention Network for Few-Shot VOS
- Title(参考訳): Few-Shot VOSのためのホロスティックなプロトタイプアテンションネットワーク
- Authors: Yin Tang, Tao Chen, Xiruo Jiang, Yazhou Yao, Guo-Sen Xie, and Heng-Tao
Shen
- Abstract要約: FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
- 参考スコア(独自算出の注目度): 74.25124421163542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot video object segmentation (FSVOS) aims to segment dynamic objects of
unseen classes by resorting to a small set of support images that contain
pixel-level object annotations. Existing methods have demonstrated that the
domain agent-based attention mechanism is effective in FSVOS by learning the
correlation between support images and query frames. However, the agent frame
contains redundant pixel information and background noise, resulting in
inferior segmentation performance. Moreover, existing methods tend to ignore
inter-frame correlations in query videos. To alleviate the above dilemma, we
propose a holistic prototype attention network (HPAN) for advancing FSVOS.
Specifically, HPAN introduces a prototype graph attention module (PGAM) and a
bidirectional prototype attention module (BPAM), transferring informative
knowledge from seen to unseen classes. PGAM generates local prototypes from all
foreground features and then utilizes their internal correlations to enhance
the representation of the holistic prototypes. BPAM exploits the holistic
information from support images and video frames by fusing co-attention and
self-attention to achieve support-query semantic consistency and inner-frame
temporal consistency. Extensive experiments on YouTube-FSVOS have been provided
to demonstrate the effectiveness and superiority of our proposed HPAN method.
- Abstract(参考訳): 少数ショットビデオオブジェクトセグメンテーション(fsvos)は、ピクセルレベルのオブジェクトアノテーションを含む小さなサポートイメージセットを使用することで、目に見えないクラスの動的オブジェクトをセグメンテーションすることを目的としている。
既存の手法では、サポート画像とクエリフレームの相関関係を学習することにより、ドメインエージェントベースのアテンションメカニズムがFSVOSに有効であることを示した。
しかし、エージェントフレームには冗長な画素情報とバックグラウンドノイズが含まれており、セグメンテーション性能が劣る。
さらに,既存手法はクエリビデオのフレーム間相関を無視する傾向にある。
上記のジレンマを緩和するために,FSVOSを前進させるための総合プロトタイプアテンションネットワーク(HPAN)を提案する。
具体的には、プロトタイプグラフアテンションモジュール (PGAM) と双方向プロトタイプアテンションモジュール (BPAM) を導入し、見知らぬクラスに情報を伝達する。
PGAMは、すべての前景特徴から局所プロトタイプを生成し、その内部相関を利用して、総合的なプロトタイプの表現を強化する。
BPAMは、サポート・クエリのセマンティック一貫性と内部フレームの時間一貫性を達成するために、コアテンションと自己アテンションを融合することにより、サポート画像とビデオフレームからの全体的情報を利用する。
提案手法の有効性と優位性を示すため,YouTube-FSVOSの大規模な実験を行った。
関連論文リスト
- Correlation Weighted Prototype-based Self-Supervised One-Shot Segmentation of Medical Images [12.365801596593936]
医用画像セグメンテーションは、十分な注釈付きデータが入手できない領域の1つである。
スーパーピクセルから生成された擬似ラベルを用いた,プロトタイプベースのワンショット学習フレームワークを提案する。
提案手法は,最先端の手法と同等に機能することを示す。
論文 参考訳(メタデータ) (2024-08-12T15:38:51Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Breaking Immutable: Information-Coupled Prototype Elaboration for
Few-Shot Object Detection [15.079980293820137]
本稿では,情報結合型プロトタイプ開発(ICPE)手法を提案する。
提案手法は,ほぼすべての設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-27T10:33:11Z) - Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。
本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文 参考訳(メタデータ) (2022-11-22T06:19:17Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。