論文の概要: F2Net: Learning to Focus on the Foreground for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2012.02534v1
- Date: Fri, 4 Dec 2020 11:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:41:45.178638
- Title: F2Net: Learning to Focus on the Foreground for Unsupervised Video Object
Segmentation
- Title(参考訳): f2net:教師なしビデオオブジェクトセグメンテーションのための前景にフォーカスする学習
- Authors: Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou
- Abstract要約: 本研究では,フォアグラウンド・ネットワーク(F2Net)について,フォアグラウンド・オブジェクトのイントラ・フレームの詳細について考察する。
提案するネットワークは,Siamese Module,Center Guiding Outearance Diffusion Module,Dynamic Information Fusion Moduleの3つの主要部分から構成される。
DAVIS2016、Youtube-object、FBMSデータセットの実験から、提案したF2Netは最先端のパフォーマンスを実現し、大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 61.74261802856947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although deep learning based methods have achieved great progress in
unsupervised video object segmentation, difficult scenarios (e.g., visual
similarity, occlusions, and appearance changing) are still not well-handled. To
alleviate these issues, we propose a novel Focus on Foreground Network (F2Net),
which delves into the intra-inter frame details for the foreground objects and
thus effectively improve the segmentation performance. Specifically, our
proposed network consists of three main parts: Siamese Encoder Module, Center
Guiding Appearance Diffusion Module, and Dynamic Information Fusion Module.
Firstly, we take a siamese encoder to extract the feature representations of
paired frames (reference frame and current frame). Then, a Center Guiding
Appearance Diffusion Module is designed to capture the inter-frame feature
(dense correspondences between reference frame and current frame), intra-frame
feature (dense correspondences in current frame), and original semantic feature
of current frame. Specifically, we establish a Center Prediction Branch to
predict the center location of the foreground object in current frame and
leverage the center point information as spatial guidance prior to enhance the
inter-frame and intra-frame feature extraction, and thus the feature
representation considerably focus on the foreground objects. Finally, we
propose a Dynamic Information Fusion Module to automatically select relatively
important features through three aforementioned different level features.
Extensive experiments on DAVIS2016, Youtube-object, and FBMS datasets show that
our proposed F2Net achieves the state-of-the-art performance with significant
improvement.
- Abstract(参考訳): ディープラーニングベースの手法は教師なしのビデオオブジェクトのセグメンテーションにおいて大きな進歩を遂げているが、難しいシナリオ(視覚の類似性、オクルージョン、外観の変化など)はまだうまく処理されていない。
そこで本研究では,フォアグラウンド・ネットワーク(f2net)に着目し,フォアグラウンド・オブジェクトのフレーム内詳細を分割し,セグメンテーション性能を効果的に向上させる手法を提案する。
具体的には,Siamese Encoder Module,Center Guiding Outearance Diffusion Module,Dynamic Information Fusion Moduleの3つの主要部分から構成される。
まず、シアムエンコーダを用いて、ペアフレーム(参照フレームと現在のフレーム)の特徴表現を抽出する。
次に、フレーム間特徴(参照フレームとカレントフレーム間のデンス対応)、フレーム内特徴(現在のフレーム内のデンス対応)、および現在のフレームの本来の意味的特徴をキャプチャする中央案内型外観拡散モジュールを設計する。
具体的には、現在のフレームにおける前景オブジェクトの中心位置を予測し、その中心点情報を空間的ガイダンスとして利用して、フレーム間特徴抽出とフレーム内特徴抽出を強化し、その特徴表現が前景オブジェクトにかなり焦点をあてる。
最後に,上記の3つの異なるレベル特徴により,比較的重要な特徴を自動的に選択する動的情報融合モジュールを提案する。
DAVIS2016、Youtube-object、FBMSデータセットの大規模な実験により、提案したF2Netは、最先端のパフォーマンスを実現し、大幅な改善がなされた。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - STF: Spatio-Temporal Fusion Module for Improving Video Object Detection [7.213855322671065]
ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
論文 参考訳(メタデータ) (2024-02-16T15:19:39Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - FoV-Net: Field-of-View Extrapolation Using Self-Attention and
Uncertainty [95.11806655550315]
我々は、視野の狭いビデオシーケンスからの情報を利用して、視野の広いシーンでシーンを推測する。
本稿では、時間的に一貫した視野外補間フレームワークFoV-Netを提案する。
実験によると、FoV-Netは、時間的に一貫した視野のシーンを、既存の代替手段よりもうまく外挿している。
論文 参考訳(メタデータ) (2022-04-04T06:24:03Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - EA-Net: Edge-Aware Network for Flow-based Video Frame Interpolation [101.75999290175412]
補間フレーム内のエッジを保存することにより,画像のぼかしを低減し,オブジェクトの明確な形状を得る。
提案するエッジアウェアネットワーク(eanet)は、エッジ情報をフレームタスクに統合する。
フローマップの推定において,フレームエッジを強調する3つのエッジアウェア機構が開発されている。
論文 参考訳(メタデータ) (2021-05-17T08:44:34Z) - (AF)2-S3Net: Attentive Feature Fusion with Adaptive Feature Selection
for Sparse Semantic Segmentation Network [3.6967381030744515]
3次元LiDARセマンティックセマンティックセグメンテーションのためのエンコーダ-デコーダCNNネットワークであるAF2-S3Netを提案する。
本稿では、エンコーダに新しいマルチブランチ注意機能融合モジュール、デコーダに特徴マップを再重み付けしたユニークな適応機能選択モジュールを提案する。
実験の結果,提案手法は大規模セマンティックKITTIベンチマークにおける最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-02-08T21:04:21Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - ASAP-Net: Attention and Structure Aware Point Cloud Sequence
Segmentation [49.15948235059343]
我々は、ASAPと呼ばれるフレキシブルモジュールにより、ポイントテンポラルクラウド機能をさらに改善する。
我々のASAPモジュールは、フレーム間の比較的情報性の高い局所的特徴を連続的に融合させるために、注意深い時間的埋め込み層を含んでいる。
本稿では、ポイントクラウドシーケンシャルセグメンテーションのための異なる計算バックボーンネットワークを持つASAPモジュールの一般化能力を示す。
論文 参考訳(メタデータ) (2020-08-12T07:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。