論文の概要: Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2204.02791v2
- Date: Tue, 16 Jan 2024 11:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 22:28:10.393697
- Title: Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのためのインシシットモーション補償ネットワーク
- Authors: Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, and Zhengguo Li
- Abstract要約: 教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
- 参考スコア(独自算出の注目度): 25.41427065435164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation (UVOS) aims at automatically
separating the primary foreground object(s) from the background in a video
sequence. Existing UVOS methods either lack robustness when there are visually
similar surroundings (appearance-based) or suffer from deterioration in the
quality of their predictions because of dynamic background and inaccurate flow
(flow-based). To overcome the limitations, we propose an implicit
motion-compensated network (IMCNet) combining complementary cues
($\textit{i.e.}$, appearance and motion) with aligned motion information from
the adjacent frames to the current frame at the feature level without
estimating optical flows. The proposed IMCNet consists of an affinity computing
module (ACM), an attention propagation module (APM), and a motion compensation
module (MCM). The light-weight ACM extracts commonality between neighboring
input frames based on appearance features. The APM then transmits global
correlation in a top-down manner. Through coarse-to-fine iterative inspiring,
the APM will refine object regions from multiple resolutions so as to
efficiently avoid losing details. Finally, the MCM aligns motion information
from temporally adjacent frames to the current frame which achieves implicit
motion compensation at the feature level. We perform extensive experiments on
$\textit{DAVIS}_{\textit{16}}$ and $\textit{YouTube-Objects}$. Our network
achieves favorable performance while running at a faster speed compared to the
state-of-the-art methods.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
この制限を克服するため、光学的フローを推定することなく、隣接するフレームから現在のフレームへの一致した動き情報と相補的キュー(\textit{i.e.}$, appearance and motion)を組み合わせた暗黙的な動き補償ネットワーク(IMCNet)を提案する。
IMCNetはアフィニティ計算モジュール(ACM)、アテンション伝搬モジュール(APM)、動き補償モジュール(MCM)から構成される。
軽量ACMは、外観特徴に基づいて隣接する入力フレーム間の共通性を抽出する。
APMは、グローバルな相関をトップダウンで送信する。
粗大から細い反復インスピレーションによって、APMは複数の解像度からオブジェクト領域を洗練し、詳細を失うのを効率的に回避する。
そして、MCMは、時間的に隣接するフレームから現在フレームまでの動作情報を整列し、特徴レベルで暗黙的な動き補償を実現する。
我々は、$\textit{DAVIS}_{\textit{16}}$と$\textit{YouTube-Objects}$で広範な実験を行います。
本ネットワークは最先端手法に比べて高速で動作しながら良好な性能を実現している。
関連論文リスト
- Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Hierarchical Feature Alignment Network for Unsupervised Video Object
Segmentation [99.70336991366403]
外観・動作特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。
提案されたHFANはDAVIS-16の最先端性能に到達し、88.7ドルのmathcalJ&mathcalF$Meanを達成した。
論文 参考訳(メタデータ) (2022-07-18T10:10:14Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。