論文の概要: Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation
- arxiv url: http://arxiv.org/abs/2104.04782v1
- Date: Sat, 10 Apr 2021 14:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 10:38:54.482040
- Title: Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation
- Title(参考訳): 非教師付きビデオマルチオブジェクトセグメンテーションのためのターゲット認識オブジェクト発見とアソシエーション
- Authors: Tianfei Zhou, Jianwu Li, Xueyi Li, Ling Shao
- Abstract要約: 本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 79.6596425920849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the task of unsupervised video multi-object
segmentation. Current approaches follow a two-stage paradigm: 1) detect object
proposals using pre-trained Mask R-CNN, and 2) conduct generic feature matching
for temporal association using re-identification techniques. However, the
generic features, widely used in both stages, are not reliable for
characterizing unseen objects, leading to poor generalization. To address this,
we introduce a novel approach for more accurate and efficient spatio-temporal
segmentation. In particular, to address \textbf{instance discrimination}, we
propose to combine foreground region estimation and instance grouping together
in one network, and additionally introduce temporal guidance for segmenting
each frame, enabling more accurate object discovery. For \textbf{temporal
association}, we complement current video object segmentation architectures
with a discriminative appearance model, capable of capturing more fine-grained
target-specific information. Given object proposals from the instance
discrimination network, three essential strategies are adopted to achieve
accurate segmentation: 1) target-specific tracking using a memory-augmented
appearance model; 2) target-agnostic verification to trace possible tracklets
for the proposal; 3) adaptive memory updating using the verified segments. We
evaluate the proposed approach on DAVIS$_{17}$ and YouTube-VIS, and the results
demonstrate that it outperforms state-of-the-art methods both in segmentation
accuracy and inference speed.
- Abstract(参考訳): 本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
1)事前学習したMask R-CNNを用いてオブジェクト提案を検知し,2)再同定手法を用いて時間的アソシエーションのための一般的な特徴マッチングを行う。
しかし、両方の段階で広く使われている一般的な特徴は、見えない物体を特徴づけるには信頼できないため、一般化は不十分である。
そこで本研究では,より高精度で効率的な時空間分割手法を提案する。
特に,textbf{instance discrimination} に対処するために,前景領域の推定とインスタンスグループ化を一つのネットワークで組み合わせることを提案し,さらに,各フレームのセグメント化のための時間的ガイダンスを導入し,より正確なオブジェクト発見を可能にする。
textbf{temporal association}の場合、現在のビデオオブジェクトのセグメンテーションアーキテクチャを識別的外観モデルで補完し、よりきめ細かいターゲット固有の情報をキャプチャする。
インスタンス識別ネットワークからのオブジェクト提案を前提として,1) メモリ拡張外観モデルを用いたターゲット固有追跡,2) 提案の可能なトラックレットをトレースするターゲット非依存検証,3) 検証されたセグメントを用いた適応メモリ更新という,3つの重要なセグメンテーションが採用されている。
提案手法は, DAVIS$_{17}$とYouTube-VISで評価し, セグメンテーション精度と推論速度の両方において最先端の手法より優れていることを示した。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation
and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。
地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。
我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文 参考訳(メタデータ) (2023-11-05T18:51:33Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - An Exploration of Target-Conditioned Segmentation Methods for Visual
Object Trackers [24.210580784051277]
境界ボックストラッカーをセグメント化トラッカーに変換する方法を示す。
この手法は,最近提案されたセグメンテーショントラッカーと競合することを示す。
論文 参考訳(メタデータ) (2020-08-03T16:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。