論文の概要: Holistic Prototype Attention Network for Few-Shot VOS
- arxiv url: http://arxiv.org/abs/2307.07933v1
- Date: Sun, 16 Jul 2023 03:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:01:55.535929
- Title: Holistic Prototype Attention Network for Few-Shot VOS
- Title(参考訳): Few-Shot VOSのためのホロスティックなプロトタイプアテンションネットワーク
- Authors: Yin Tang, Tao Chen, Xiruo Jiang, Yazhou Yao, Guo-Sen Xie, and Heng-Tao
Shen
- Abstract要約: FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
- 参考スコア(独自算出の注目度): 74.25124421163542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot video object segmentation (FSVOS) aims to segment dynamic objects of
unseen classes by resorting to a small set of support images that contain
pixel-level object annotations. Existing methods have demonstrated that the
domain agent-based attention mechanism is effective in FSVOS by learning the
correlation between support images and query frames. However, the agent frame
contains redundant pixel information and background noise, resulting in
inferior segmentation performance. Moreover, existing methods tend to ignore
inter-frame correlations in query videos. To alleviate the above dilemma, we
propose a holistic prototype attention network (HPAN) for advancing FSVOS.
Specifically, HPAN introduces a prototype graph attention module (PGAM) and a
bidirectional prototype attention module (BPAM), transferring informative
knowledge from seen to unseen classes. PGAM generates local prototypes from all
foreground features and then utilizes their internal correlations to enhance
the representation of the holistic prototypes. BPAM exploits the holistic
information from support images and video frames by fusing co-attention and
self-attention to achieve support-query semantic consistency and inner-frame
temporal consistency. Extensive experiments on YouTube-FSVOS have been provided
to demonstrate the effectiveness and superiority of our proposed HPAN method.
- Abstract(参考訳): 少数ショットビデオオブジェクトセグメンテーション(fsvos)は、ピクセルレベルのオブジェクトアノテーションを含む小さなサポートイメージセットを使用することで、目に見えないクラスの動的オブジェクトをセグメンテーションすることを目的としている。
既存の手法では、サポート画像とクエリフレームの相関関係を学習することにより、ドメインエージェントベースのアテンションメカニズムがFSVOSに有効であることを示した。
しかし、エージェントフレームには冗長な画素情報とバックグラウンドノイズが含まれており、セグメンテーション性能が劣る。
さらに,既存手法はクエリビデオのフレーム間相関を無視する傾向にある。
上記のジレンマを緩和するために,FSVOSを前進させるための総合プロトタイプアテンションネットワーク(HPAN)を提案する。
具体的には、プロトタイプグラフアテンションモジュール (PGAM) と双方向プロトタイプアテンションモジュール (BPAM) を導入し、見知らぬクラスに情報を伝達する。
PGAMは、すべての前景特徴から局所プロトタイプを生成し、その内部相関を利用して、総合的なプロトタイプの表現を強化する。
BPAMは、サポート・クエリのセマンティック一貫性と内部フレームの時間一貫性を達成するために、コアテンションと自己アテンションを融合することにより、サポート画像とビデオフレームからの全体的情報を利用する。
提案手法の有効性と優位性を示すため,YouTube-FSVOSの大規模な実験を行った。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Self-supervised Few-shot Learning for Semantic Segmentation: An
Annotation-free Approach [4.855689194518905]
Few-shot semantic segmentation (FSS)は、医用画像解析の分野で大きな可能性を秘めている。
既存のFSS技術は注釈付きセマンティッククラスに大きく依存しており、医療画像には適さない。
本稿では,アノテーションに依存しない新たな自己教師型FSSフレームワークを提案する。その代わりに,支援画像から得られる固有ベクトルを利用して,クエリマスクを適応的に推定する。
論文 参考訳(メタデータ) (2023-07-26T18:33:30Z) - Breaking Immutable: Information-Coupled Prototype Elaboration for
Few-Shot Object Detection [15.079980293820137]
本稿では,情報結合型プロトタイプ開発(ICPE)手法を提案する。
提案手法は,ほぼすべての設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-27T10:33:11Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Local-Aware Global Attention Network for Person Re-Identification [0.0]
本稿では,身体画像と手動画像の両面から,人物Re-Idに対するエンドツーエンドの識別的深層特徴学習のための複合的アプローチを提案する。
提案手法は既存の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-09-11T09:43:42Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。