論文の概要: Towards Robust Video Object Segmentation with Adaptive Object
Calibration
- arxiv url: http://arxiv.org/abs/2207.00887v1
- Date: Sat, 2 Jul 2022 17:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 09:12:18.840927
- Title: Towards Robust Video Object Segmentation with Adaptive Object
Calibration
- Title(参考訳): 適応オブジェクトキャリブレーションを用いたロバストな映像オブジェクトセグメンテーション
- Authors: Xiaohao Xu, Jinglu Wang, Xiang Ming, Yan Lu
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 18.094698623128146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the booming video era, video segmentation attracts increasing research
attention in the multimedia community. Semi-supervised video object
segmentation (VOS) aims at segmenting objects in all target frames of a video,
given annotated object masks of reference frames. Most existing methods build
pixel-wise reference-target correlations and then perform pixel-wise tracking
to obtain target masks. Due to neglecting object-level cues, pixel-level
approaches make the tracking vulnerable to perturbations, and even
indiscriminate among similar objects. Towards robust VOS, the key insight is to
calibrate the representation and mask of each specific object to be expressive
and discriminative. Accordingly, we propose a new deep network, which can
adaptively construct object representations and calibrate object masks to
achieve stronger robustness. First, we construct the object representations by
applying an adaptive object proxy (AOP) aggregation method, where the proxies
represent arbitrary-shaped segments at multi-levels for reference. Then,
prototype masks are initially generated from the reference-target correlations
based on AOP. Afterwards, such proto-masks are further calibrated through
network modulation, conditioning on the object proxy representations. We
consolidate this conditional mask calibration process in a progressive manner,
where the object representations and proto-masks evolve to be discriminative
iteratively. Extensive experiments are conducted on the standard VOS
benchmarks, YouTube-VOS-18/19 and DAVIS-17. Our model achieves the
state-of-the-art performance among existing published works, and also exhibits
superior robustness against perturbations. Our project repo is at
https://github.com/JerryX1110/Robust-Video-Object-Segmentation
- Abstract(参考訳): 急成長するビデオ時代において、ビデオセグメンテーションはマルチメディアコミュニティにおける研究の注目を集めている。
半教師付きビデオオブジェクトセグメンテーション(vos: semi-supervised video object segmentation)は、ビデオのすべてのターゲットフレームにオブジェクトをセグメンテーションすることを目的としている。
既存の手法では、ピクセル単位の参照目標相関を構築し、ピクセル単位の追跡を行い、ターゲットマスクを得る。
オブジェクトレベルの手がかりを無視するため、ピクセルレベルのアプローチは、追跡を摂動に弱いものにし、類似したオブジェクト間でも非差別化させる。
堅牢なVOSに向けて、重要な洞察は、表現的で差別的な各対象の表現とマスクを校正することである。
そこで本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクのキャリブレーションを行い,強靭性を実現する新しい深層ネットワークを提案する。
まず,アダプティブオブジェクトプロキシ(AOP)アグリゲーション手法を適用してオブジェクト表現を構築する。
次に、AOPに基づく基準目標相関からプロトタイプマスクを生成する。
その後、そのようなproto-maskは、ネットワーク変調、オブジェクトプロキシ表現のコンディショニングによってさらに校正される。
この条件付マスク校正プロセスを漸進的に統合し,オブジェクト表現とproto-maskが反復的に識別されるように進化する。
実験は標準VOSベンチマーク、YouTube-VOS-18/19、DAVIS-17で実施された。
本モデルは,既存の出版作品の最先端性能を実現し,摂動に対する優れた堅牢性を示す。
私たちのプロジェクトリポジトリはhttps://github.com/JerryX1110/Robust-Video-Object-Segmentationにあります。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。