Fugu-MT 論文翻訳(概要): Holistic Prototype Attention Network for Few-Shot VOS

論文の概要: Holistic Prototype Attention Network for Few-Shot VOS

arxiv url: http://arxiv.org/abs/2307.07933v1
Date: Sun, 16 Jul 2023 03:48:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 17:01:55.535929
Title: Holistic Prototype Attention Network for Few-Shot VOS
Title（参考訳）: Few-Shot VOSのためのホロスティックなプロトタイプアテンションネットワーク
Authors: Yin Tang, Tao Chen, Xiruo Jiang, Yazhou Yao, Guo-Sen Xie, and Heng-Tao Shen
Abstract要約: FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
参考スコア（独自算出の注目度）: 74.25124421163542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot video object segmentation (FSVOS) aims to segment dynamic objects of unseen classes by resorting to a small set of support images that contain pixel-level object annotations. Existing methods have demonstrated that the domain agent-based attention mechanism is effective in FSVOS by learning the correlation between support images and query frames. However, the agent frame contains redundant pixel information and background noise, resulting in inferior segmentation performance. Moreover, existing methods tend to ignore inter-frame correlations in query videos. To alleviate the above dilemma, we propose a holistic prototype attention network (HPAN) for advancing FSVOS. Specifically, HPAN introduces a prototype graph attention module (PGAM) and a bidirectional prototype attention module (BPAM), transferring informative knowledge from seen to unseen classes. PGAM generates local prototypes from all foreground features and then utilizes their internal correlations to enhance the representation of the holistic prototypes. BPAM exploits the holistic information from support images and video frames by fusing co-attention and self-attention to achieve support-query semantic consistency and inner-frame temporal consistency. Extensive experiments on YouTube-FSVOS have been provided to demonstrate the effectiveness and superiority of our proposed HPAN method.
Abstract（参考訳）: 少数ショットビデオオブジェクトセグメンテーション(fsvos)は、ピクセルレベルのオブジェクトアノテーションを含む小さなサポートイメージセットを使用することで、目に見えないクラスの動的オブジェクトをセグメンテーションすることを目的としている。既存の手法では、サポート画像とクエリフレームの相関関係を学習することにより、ドメインエージェントベースのアテンションメカニズムがFSVOSに有効であることを示した。しかし、エージェントフレームには冗長な画素情報とバックグラウンドノイズが含まれており、セグメンテーション性能が劣る。さらに,既存手法はクエリビデオのフレーム間相関を無視する傾向にある。上記のジレンマを緩和するために,FSVOSを前進させるための総合プロトタイプアテンションネットワーク(HPAN)を提案する。具体的には、プロトタイプグラフアテンションモジュール (PGAM) と双方向プロトタイプアテンションモジュール (BPAM) を導入し、見知らぬクラスに情報を伝達する。 PGAMは、すべての前景特徴から局所プロトタイプを生成し、その内部相関を利用して、総合的なプロトタイプの表現を強化する。 BPAMは、サポート・クエリのセマンティック一貫性と内部フレームの時間一貫性を達成するために、コアテンションと自己アテンションを融合することにより、サポート画像とビデオフレームからの全体的情報を利用する。提案手法の有効性と優位性を示すため,YouTube-FSVOSの大規模な実験を行った。

関連論文リスト

FCC: Fully Connected Correlation for Few-Shot Segmentation [11.277022867553658]
Few-shot segmentation (FSS) は、少数のサポートイメージとマスクのみを使用して、ターゲットオブジェクトをクエリイメージにセグメントすることを目的としている。従来の手法では, 最終層や同層の特徴に対する画素レベルの相関関係から相関写像を作成することで, 事前情報を得る方法が試みられている。サポート機能とクエリ機能の間にピクセルレベルの相関関係を統合するためにFCC(Fully Connected correlation)を導入する。
論文参考訳（メタデータ） (2024-11-18T03:32:02Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2023-09-20T09:16:34Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Breaking Immutable: Information-Coupled Prototype Elaboration for Few-Shot Object Detection [15.079980293820137]
本稿では,情報結合型プロトタイプ開発(ICPE)手法を提案する。提案手法は,ほぼすべての設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2022-11-27T10:33:11Z)
Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文参考訳（メタデータ） (2022-11-22T06:19:17Z)
Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文参考訳（メタデータ） (2022-11-20T16:19:47Z)
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文参考訳（メタデータ） (2021-11-22T08:55:25Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。