論文の概要: Global Motion Understanding in Large-Scale Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2405.07031v1
- Date: Sat, 11 May 2024 15:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 18:47:31.264218
- Title: Global Motion Understanding in Large-Scale Video Object Segmentation
- Title(参考訳): 大規模ビデオオブジェクトセグメンテーションにおけるグローバルモーション理解
- Authors: Volodymyr Fedynyak, Yaroslav Romanus, Oles Dobosevych, Igor Babin, Roman Riazantsev,
- Abstract要約: ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。
すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
- 参考スコア(独自算出の注目度): 0.499320937849508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show that transferring knowledge from other domains of video understanding combined with large-scale learning can improve robustness of Video Object Segmentation (VOS) under complex circumstances. Namely, we focus on integrating scene global motion knowledge to improve large-scale semi-supervised Video Object Segmentation. Prior works on VOS mostly rely on direct comparison of semantic and contextual features to perform dense matching between current and past frames, passing over actual motion structure. On the other hand, Optical Flow Estimation task aims to approximate the scene motion field, exposing global motion patterns which are typically undiscoverable during all pairs similarity search. We present WarpFormer, an architecture for semi-supervised Video Object Segmentation that exploits existing knowledge in motion understanding to conduct smoother propagation and more accurate matching. Our framework employs a generic pretrained Optical Flow Estimation network whose prediction is used to warp both past frames and instance segmentation masks to the current frame domain. Consequently, warped segmentation masks are refined and fused together aiming to inpaint occluded regions and eliminate artifacts caused by flow field imperfects. Additionally, we employ novel large-scale MOSE 2023 dataset to train model on various complex scenarios. Our method demonstrates strong performance on DAVIS 2016/2017 validation (93.0% and 85.9%), DAVIS 2017 test-dev (80.6%) and YouTube-VOS 2019 validation (83.8%) that is competitive with alternative state-of-the-art methods while using much simpler memory mechanism and instance understanding logic.
- Abstract(参考訳): 本稿では,ビデオ理解の他の領域からの知識を大規模学習と組み合わせることで,複雑な状況下でのVOS(Video Object Segmentation)の堅牢性を向上できることを示す。
すなわち,大規模な半教師付きビデオオブジェクトセグメンテーションを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
VOSの以前の研究は、主に意味的特徴と文脈的特徴を直接比較して、現在のフレームと過去のフレームの密なマッチングを実行し、実際のモーション構造を通り過ぎている。
一方,オプティカルフロー推定タスクはシーンの運動場を近似することを目的としており,すべてのペアの類似性探索において通常発見できないグローバルな動きパターンを明らかにする。
本稿では、動作理解における既存の知識を活用して、よりスムーズな伝搬とより正確なマッチングを行う、半教師付きビデオオブジェクトセグメンテーションのためのアーキテクチャであるWarpFormerを提案する。
我々のフレームワークは、過去のフレームとインスタンスセグメンテーションマスクの両方を現在のフレーム領域にワープするために使用される、一般的な事前訓練された光フロー推定ネットワークを使用している。
これにより、歪んだセグメンテーションマスクを洗練して融合させ、閉塞した領域を塗布し、流れ場欠陥によるアーティファクトを除去する。
さらに、様々な複雑なシナリオでモデルをトレーニングするために、新しい大規模MOSE 2023データセットを使用します。
DAVIS 2016/2017バリデーション(93.0%と85.9%)、DAVIS 2017 test-dev(80.6%)、YouTube-VOS 2019バリデーション(83.8%)は、はるかに単純なメモリ機構とインスタンス理解ロジックを使用しながら、代替の最先端のメソッドと競合する。
関連論文リスト
- Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [90.66285408745453]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において困難である。
ほとんどの最先端の手法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Learning Temporal Distribution and Spatial Correlation Towards Universal
Moving Object Segmentation [8.807766029291901]
本稿では,時空間分布と空間相関(LTS)の学習手法を提案する。
提案手法では,時間画素からの分布を,シーン非依存のセグメンテーションのための欠陥反復分布学習(DIDL)ネットワークで学習する。
提案手法は、パラメータが固定された多様で複雑な自然シーンのほとんどすべてのビデオに対してよく機能する。
論文 参考訳(メタデータ) (2023-04-19T20:03:09Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。