論文の概要: Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2111.07529v1
- Date: Mon, 15 Nov 2021 04:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 03:51:08.576352
- Title: Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation
- Title(参考訳): 時間安定なビデオインスタンスセグメンテーションのためのフレーム間注意による物体伝搬
- Authors: Anirudh S Chakravarthy, Won-Dong Jang, Zudi Lin, Donglai Wei, Song
Bai, Hanspeter Pfister
- Abstract要約: ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
- 参考スコア(独自算出の注目度): 51.68840525174265
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video instance segmentation aims to detect, segment, and track objects in a
video. Current approaches extend image-level segmentation algorithms to the
temporal domain. However, this results in temporally inconsistent masks. In
this work, we identify the mask quality due to temporal stability as a
performance bottleneck. Motivated by this, we propose a video instance
segmentation method that alleviates the problem due to missing detections.
Since this cannot be solved simply using spatial information, we leverage
temporal context using inter-frame attentions. This allows our network to
refocus on missing objects using box predictions from the neighbouring frame,
thereby overcoming missing detections. Our method significantly outperforms
previous state-of-the-art algorithms using the Mask R-CNN backbone, by
achieving 35.1% mAP on the YouTube-VIS benchmark. Additionally, our method is
completely online and requires no future frames. Our code is publicly available
at https://github.com/anirudh-chakravarthy/ObjProp.
- Abstract(参考訳): ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
しかし、これは時間的に矛盾するマスクをもたらす。
本研究では,時間安定性によるマスク品質を性能ボトルネックとして同定する。
そこで本研究では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
空間的情報だけでは解決できないため、時間的文脈をフレーム間注目を用いて活用する。
これにより、ネットワークは隣接フレームからのボックス予測を用いて、行方不明なオブジェクトに再フォーカスし、不足検出を克服できる。
提案手法は,YouTube-VISベンチマークで35.1%のmAPを達成し,Mask R-CNNバックボーンを用いた従来の最先端アルゴリズムよりも大幅に優れていた。
さらに,本手法は完全にオンラインであり,将来的な枠組みを必要としない。
私たちのコードはhttps://github.com/anirudh-chakravarthy/ObjProp.comで公開されています。
関連論文リスト
- Space-time Reinforcement Network for Video Object Segmentation [16.67780344875854]
ビデオオブジェクトセグメンテーション(VOS)ネットワークは通常、メモリベースの手法を使用する。
これらの手法は,1) 隣接するビデオフレーム間の空間的コヒーレンスをデータの整合によって破壊し,2) 画素レベルのマッチングが望ましくないミスマッチを引き起こすという2つの問題に悩まされる。
本稿では,隣接フレーム間の補助フレームを生成することを提案し,クエリの暗黙的短時間参照として機能する。
論文 参考訳(メタデータ) (2024-05-07T06:26:30Z) - Detect Any Shadow: Segment Anything for Video Shadow Detection [105.19693622157462]
影を検出するためのセグメンテーションモデル(SAM)を微調整するフレームワークであるShadowSAMを提案する。
長時間の注意機構と組み合わせることで、効率的な映像陰影検出が可能となる。
提案手法は,従来のビデオシャドウ検出手法と比較して高速な推論速度を示す。
論文 参考訳(メタデータ) (2023-05-26T07:39:10Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。