論文の概要: TTVOS: Lightweight Video Object Segmentation with Adaptive Template
Attention Module and Temporal Consistency Loss
- arxiv url: http://arxiv.org/abs/2011.04445v3
- Date: Sun, 4 Apr 2021 10:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:26:35.669294
- Title: TTVOS: Lightweight Video Object Segmentation with Adaptive Template
Attention Module and Temporal Consistency Loss
- Title(参考訳): TTVOS: 適応テンプレートアテンションモジュールと時間的一貫性損失を備えた軽量ビデオオブジェクトセグメンテーション
- Authors: Hyojin Park, Ganesh Venkatesh, Nojun Kwak
- Abstract要約: 本稿では,テンプレートマッチング法と時間的一貫性損失に基づく半教師付きビデオオブジェクトセグメンテーション(semi-VOS)モデルを提案する。
DAVIS16ベンチマークでは, 73.8 FPSの速度で79.5%のJ&F値を得た。
- 参考スコア(独自算出の注目度): 33.944900447121505
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semi-supervised video object segmentation (semi-VOS) is widely used in many
applications. This task is tracking class-agnostic objects from a given target
mask. For doing this, various approaches have been developed based on
online-learning, memory networks, and optical flow. These methods show high
accuracy but are hard to be utilized in real-world applications due to slow
inference time and tremendous complexity. To resolve this problem, template
matching methods are devised for fast processing speed but sacrificing lots of
performance in previous models. We introduce a novel semi-VOS model based on a
template matching method and a temporal consistency loss to reduce the
performance gap from heavy models while expediting inference time a lot. Our
template matching method consists of short-term and long-term matching. The
short-term matching enhances target object localization, while long-term
matching improves fine details and handles object shape-changing through the
newly proposed adaptive template attention module. However, the long-term
matching causes error-propagation due to the inflow of the past estimated
results when updating the template. To mitigate this problem, we also propose a
temporal consistency loss for better temporal coherence between neighboring
frames by adopting the concept of a transition matrix. Our model obtains 79.5%
J&F score at the speed of 73.8 FPS on the DAVIS16 benchmark. The code is
available in https://github.com/HYOJINPARK/TTVOS.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(semi-VOS)は多くのアプリケーションで広く使われている。
このタスクは、与えられたターゲットマスクからクラスに依存しないオブジェクトを追跡する。
これを実現するために、オンライン学習、メモリネットワーク、光学フローに基づく様々なアプローチが開発されている。
これらの手法は高い精度を示すが、推論時間と膨大な複雑さのため、現実のアプリケーションでは利用が困難である。
この問題を解決するため、テンプレートマッチング手法は高速処理のために考案されているが、以前のモデルでは多くの性能を犠牲にしている。
本稿では,テンプレートマッチング法に基づく新しいセミボスモデルと時間的一貫性損失を導入し,重モデルとの性能ギャップを低減し,多くの推論時間を短縮する。
テンプレートマッチング手法は,短期マッチングと長期マッチングからなる。
短期マッチングはターゲットオブジェクトのローカライゼーションを強化し、長期マッチングは詳細を改善し、新しく提案されたadaptive template attentionモジュールを介してオブジェクトの形状変更を処理する。
しかし、テンプレートの更新時に過去の推定結果の流入により、長期的なマッチングがエラープロパゲーションを引き起こす。
この問題を軽減するために,トランジッション行列の概念を適用し,隣接フレーム間の時間的コヒーレンスを改善するための時間的一貫性損失を提案する。
DAVIS16ベンチマークでは, 73.8 FPSの速度で79.5%のJ&F値を得た。
コードはhttps://github.com/HYOJINPARK/TTVOSで公開されている。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。