論文の概要: FlowVOS: Weakly-Supervised Visual Warping for Detail-Preserving and
Temporally Consistent Single-Shot Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2111.10621v1
- Date: Sat, 20 Nov 2021 16:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:50:45.995220
- Title: FlowVOS: Weakly-Supervised Visual Warping for Detail-Preserving and
Temporally Consistent Single-Shot Video Object Segmentation
- Title(参考訳): flowvos:ディテール保存と時間一貫性のある1ショットビデオオブジェクトセグメンテーションのための弱い教師付きビジュアルワーピング
- Authors: Julia Gong, F. Christopher Holsinger, Serena Yeung
- Abstract要約: 本稿では,VOSデータから流れ場を学習する前景型ビジュアルワープ手法を提案する。
フローモジュールをトレーニングし、2つの弱い教師付き損失を用いてフレーム間の詳細な動きをキャプチャする。
提案手法は,高精細かつ時間的整合性を持ったセグメンテーションを生成する。
- 参考スコア(独自算出の注目度): 4.3171602814387136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of semi-supervised video object segmentation (VOS). Our
approach mitigates shortcomings in previous VOS work by addressing detail
preservation and temporal consistency using visual warping. In contrast to
prior work that uses full optical flow, we introduce a new foreground-targeted
visual warping approach that learns flow fields from VOS data. We train a flow
module to capture detailed motion between frames using two weakly-supervised
losses. Our object-focused approach of warping previous foreground object masks
to their positions in the target frame enables detailed mask refinement with
fast runtimes without using extra flow supervision. It can also be integrated
directly into state-of-the-art segmentation networks. On the DAVIS17 and
YouTubeVOS benchmarks, we outperform state-of-the-art offline methods that do
not use extra data, as well as many online methods that use extra data.
Qualitatively, we also show our approach produces segmentations with high
detail and temporal consistency.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々のアプローチは、視覚ワープを用いた詳細な保存と時間的整合性に対処することで、以前のVOS作業の欠点を軽減する。
フルオプティカルフローを用いた以前の作業とは対照的に、VOSデータからフローフィールドを学習する、新しいフォアグラウンドターゲットのビジュアルワープアプローチを導入する。
2つの弱い教師付き損失を用いてフレーム間の詳細な動きをキャプチャするためにフローモジュールを訓練する。
従来のフォアグラウンドオブジェクトマスクをターゲットフレームの位置に反動させるオブジェクト指向アプローチは,フロー監視を余分に必要とせずに,高速ランタイムによる詳細なマスク改善を可能にします。
また、最先端のセグメンテーションネットワークに直接統合することもできる。
DAVIS17とYouTubeVOSのベンチマークでは、余分なデータを使用しない最先端のオフラインメソッドや、余分なデータを使用するオンラインメソッドよりも優れています。
定性的に、我々のアプローチは高詳細かつ時間的整合性を持ったセグメンテーションを生成することも示している。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Weakly Supervised Video Salient Object Detection via Point Supervision [18.952253968878356]
本稿では,点監督に基づく強力なベースラインモデルを提案する。
経時的情報でサリエンシマップを推定するために, 短期・長期の観点から, フレーム間補完情報を抽出する。
DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。
論文 参考訳(メタデータ) (2022-07-15T03:31:15Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。