論文の概要: Collaborative Attention Memory Network for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2205.08075v1
- Date: Tue, 17 May 2022 03:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 14:00:41.584019
- Title: Collaborative Attention Memory Network for Video Object Segmentation
- Title(参考訳): 映像オブジェクトセグメンテーションのための協調注意メモリネットワーク
- Authors: Zhixing Huang, Junli Zha, Fei Xie, Yuwei Zheng, Yuandong Zhong,
Jinpeng Tang
- Abstract要約: セグメンテーションヘッドを拡張した協調注意記憶ネットワークを提案する。
また,STMネットワークとこれらすべての改良されたCFBIネットワークを組み合わせたアンサンブルネットワークを提案する。
最後に、2021年のYoutube-VOSチャレンジにおいて、総合スコア83.5%で6位となるアプローチを評価した。
- 参考スコア(独自算出の注目度): 3.8520227078236013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation is a fundamental yet Challenging
task in computer vision. Embedding matching based CFBI series networks have
achieved promising results by foreground-background integration approach.
Despite its superior performance, these works exhibit distinct shortcomings,
especially the false predictions caused by little appearance instances in first
frame, even they could easily be recognized by previous frame. Moreover, they
suffer from object's occlusion and error drifts. In order to overcome the
shortcomings , we propose Collaborative Attention Memory Network with an
enhanced segmentation head. We introduce a object context scheme that
explicitly enhances the object information, which aims at only gathering the
pixels that belong to the same category as a given pixel as its context.
Additionally, a segmentation head with Feature Pyramid Attention(FPA) module is
adopted to perform spatial pyramid attention structure on high-level output.
Furthermore, we propose an ensemble network to combine STM network with all
these new refined CFBI network. Finally, we evaluated our approach on the 2021
Youtube-VOS challenge where we obtain 6th place with an overall score of
83.5\%.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーションはコンピュータビジョンにおける基本的な課題である。
組込みマッチングに基づくCFBIシリーズネットワークは、フォアグラウンド-バックグラウンド統合アプローチによって有望な結果を得た。
優れた性能にもかかわらず、これらの作品には明らかな欠点があり、特に第1フレームの出現例が少ないことによる誤った予測は、前フレームでも容易に認識できる。
さらに、それらは物体の閉塞とエラードリフトに悩まされる。
この欠点を克服するため,セグメンテーションヘッドを改良した協調型アテンションメモリネットワークを提案する。
対象情報を明示的に拡張するオブジェクトコンテキストスキームを導入し、与えられたピクセルと同じカテゴリに属するピクセルをコンテキストとして収集することだけを目的としている。
また、高レベル出力に対して空間ピラミッド注意構造を行うために、特徴ピラミッド注意(fpa)モジュールを備えたセグメンテーションヘッドを採用する。
さらに,STMネットワークとこれらすべての改良されたCFBIネットワークを組み合わせたアンサンブルネットワークを提案する。
最後に,2021年のYoutube-VOSチャレンジにおいて,総合スコア83.5\%の6位を獲得した。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Sharp Eyes: A Salient Object Detector Working The Same Way as Human
Visual Characteristics [3.222802562733787]
本稿では,まず被写体をシーンから分離し,それを細分化するシャープアイネットワーク(SENet)を提案する。
提案手法は,拡張オブジェクトを用いてネットワークを誘導し,完全な予測を行う。
論文 参考訳(メタデータ) (2023-01-18T11:00:45Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - PIG-Net: Inception based Deep Learning Architecture for 3D Point Cloud
Segmentation [0.9137554315375922]
そこで我々はPIG-Netと呼ばれるインセプションに基づくディープネットワークアーキテクチャを提案し,点雲の局所的および大域的幾何学的詳細を効果的に特徴付ける。
我々は2つの最先端データセット上でPIG-Netアーキテクチャの徹底的な実験的解析を行う。
論文 参考訳(メタデータ) (2021-01-28T13:27:55Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - F2Net: Learning to Focus on the Foreground for Unsupervised Video Object
Segmentation [61.74261802856947]
本研究では,フォアグラウンド・ネットワーク(F2Net)について,フォアグラウンド・オブジェクトのイントラ・フレームの詳細について考察する。
提案するネットワークは,Siamese Module,Center Guiding Outearance Diffusion Module,Dynamic Information Fusion Moduleの3つの主要部分から構成される。
DAVIS2016、Youtube-object、FBMSデータセットの実験から、提案したF2Netは最先端のパフォーマンスを実現し、大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-12-04T11:30:50Z) - Multi Receptive Field Network for Semantic Segmentation [8.06045579589765]
セグメンテーションのためのMRFM(Multi-Receptive Field Module)を提案する。
また、オブジェクト/スタッフの境界を識別するのに有効なエッジ認識損失を設計する。
具体的には、Cityscapesデータセットで83.0の平均IoU、Pascal VOC2012データセットで88.4の平均IoUを達成する。
論文 参考訳(メタデータ) (2020-11-17T11:52:23Z) - Collaborative Video Object Segmentation by Multi-Scale
Foreground-Background Integration [77.71512243438329]
本稿では,フォアグラウンド・バックグラウンド統合(CFBI)による協調的ビデオオブジェクトセグメンテーションを提案する。
CFBIは、前景のオブジェクト領域とその対応する背景領域に埋め込まれた特徴を分離し、暗黙的にそれらをよりコントラストにし、それに応じてセグメンテーション結果を改善する。
CFBIをベースとして,マルチスケールのマッチング構造を導入し,より堅牢で効率的なフレームワークであるCFBI+を実現するAtrous Matching戦略を提案する。
論文 参考訳(メタデータ) (2020-10-13T13:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。