論文の概要: TTVOS: Lightweight Video Object Segmentation with Adaptive Template
Attention Module and Temporal Consistency Loss
- arxiv url: http://arxiv.org/abs/2011.04445v3
- Date: Sun, 4 Apr 2021 10:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:26:35.669294
- Title: TTVOS: Lightweight Video Object Segmentation with Adaptive Template
Attention Module and Temporal Consistency Loss
- Title(参考訳): TTVOS: 適応テンプレートアテンションモジュールと時間的一貫性損失を備えた軽量ビデオオブジェクトセグメンテーション
- Authors: Hyojin Park, Ganesh Venkatesh, Nojun Kwak
- Abstract要約: 本稿では,テンプレートマッチング法と時間的一貫性損失に基づく半教師付きビデオオブジェクトセグメンテーション(semi-VOS)モデルを提案する。
DAVIS16ベンチマークでは, 73.8 FPSの速度で79.5%のJ&F値を得た。
- 参考スコア(独自算出の注目度): 33.944900447121505
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Semi-supervised video object segmentation (semi-VOS) is widely used in many
applications. This task is tracking class-agnostic objects from a given target
mask. For doing this, various approaches have been developed based on
online-learning, memory networks, and optical flow. These methods show high
accuracy but are hard to be utilized in real-world applications due to slow
inference time and tremendous complexity. To resolve this problem, template
matching methods are devised for fast processing speed but sacrificing lots of
performance in previous models. We introduce a novel semi-VOS model based on a
template matching method and a temporal consistency loss to reduce the
performance gap from heavy models while expediting inference time a lot. Our
template matching method consists of short-term and long-term matching. The
short-term matching enhances target object localization, while long-term
matching improves fine details and handles object shape-changing through the
newly proposed adaptive template attention module. However, the long-term
matching causes error-propagation due to the inflow of the past estimated
results when updating the template. To mitigate this problem, we also propose a
temporal consistency loss for better temporal coherence between neighboring
frames by adopting the concept of a transition matrix. Our model obtains 79.5%
J&F score at the speed of 73.8 FPS on the DAVIS16 benchmark. The code is
available in https://github.com/HYOJINPARK/TTVOS.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(semi-VOS)は多くのアプリケーションで広く使われている。
このタスクは、与えられたターゲットマスクからクラスに依存しないオブジェクトを追跡する。
これを実現するために、オンライン学習、メモリネットワーク、光学フローに基づく様々なアプローチが開発されている。
これらの手法は高い精度を示すが、推論時間と膨大な複雑さのため、現実のアプリケーションでは利用が困難である。
この問題を解決するため、テンプレートマッチング手法は高速処理のために考案されているが、以前のモデルでは多くの性能を犠牲にしている。
本稿では,テンプレートマッチング法に基づく新しいセミボスモデルと時間的一貫性損失を導入し,重モデルとの性能ギャップを低減し,多くの推論時間を短縮する。
テンプレートマッチング手法は,短期マッチングと長期マッチングからなる。
短期マッチングはターゲットオブジェクトのローカライゼーションを強化し、長期マッチングは詳細を改善し、新しく提案されたadaptive template attentionモジュールを介してオブジェクトの形状変更を処理する。
しかし、テンプレートの更新時に過去の推定結果の流入により、長期的なマッチングがエラープロパゲーションを引き起こす。
この問題を軽減するために,トランジッション行列の概念を適用し,隣接フレーム間の時間的コヒーレンスを改善するための時間的一貫性損失を提案する。
DAVIS16ベンチマークでは, 73.8 FPSの速度で79.5%のJ&F値を得た。
コードはhttps://github.com/HYOJINPARK/TTVOSで公開されている。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Memory Matching is not Enough: Jointly Improving Memory Matching and Decoding for Video Object Segmentation [8.879805544183595]
本稿では,短期記憶のわずかな誤差を抑えるコスト認識機構と長期記憶の縮小したクロススケールマッチングを提案する。
読み出し復号の段階では、マッチング段階で欠落している重要な情報を回復することを目的とした補償機構を実装した。
提案手法は,いくつかのベンチマークにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-09-22T07:08:59Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation [0.4487265603408873]
DeVOS(Deformable VOS)は,メモリベースマッチングと移動誘導伝搬を組み合わせたビデオオブジェクトのアーキテクチャである。
DAVIS 2017 val と test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) でトップランクを達成した。
論文 参考訳(メタデータ) (2024-05-11T14:57:22Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。