論文の概要: LSMVOS: Long-Short-Term Similarity Matching for Video Object
- arxiv url: http://arxiv.org/abs/2009.00771v1
- Date: Wed, 2 Sep 2020 01:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:10:51.726868
- Title: LSMVOS: Long-Short-Term Similarity Matching for Video Object
- Title(参考訳): LSMVOS:ビデオオブジェクトの長時間類似性マッチング
- Authors: Zhang Xuerui, Yuan Xia
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーションは、第1フレームにオブジェクトラベルが与えられた後続のフレームでオブジェクトをセグメンテーションすることを指す。
本稿では,新しい伝搬法を探索し,短期的マッチングモジュールを用いて前のフレームの情報を抽出し,伝播に適用する。
長期マッチングモジュールと短期マッチングモジュールを組み合わせることで、オンラインの微調整なしに、ネットワーク全体が効率的なビデオオブジェクトセグメンテーションを実現することができる。
- 参考スコア(独自算出の注目度): 3.3518869877513895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective Semi-supervised video object segmentation refers to segmenting the
object in subsequent frames given the object label in the first frame. Existing
algorithms are mostly based on the objectives of matching and propagation
strategies, which often make use of the previous frame with masking or optical
flow. This paper explores a new propagation method, uses short-term matching
modules to extract the information of the previous frame and apply it in
propagation, and proposes the network of Long-Short-Term similarity matching
for video object segmentation (LSMOVS) Method: By conducting pixel-level
matching and correlation between long-term matching module and short-term
matching module with the first frame and previous frame, global similarity map
and local similarity map are obtained, as well as feature pattern of current
frame and masking of previous frame. After two refine networks, final results
are obtained through segmentation network. Results: According to the
experiments on the two data sets DAVIS 2016 and 2017, the method of this paper
achieves favorable average of region similarity and contour accuracy without
online fine tuning, which achieves 86.5% and 77.4% in terms of single target
and multiple targets. Besides, the count of segmented frames per second reached
21. Conclusion: The short-term matching module proposed in this paper is more
conducive to extracting the information of the previous frame than only the
mask. By combining the long-term matching module with the short-term matching
module, the whole network can achieve efficient video object segmentation
without online fine tuning
- Abstract(参考訳): Objective Semi-supervised Video Object segmentationは、オブジェクトを第1フレームのオブジェクトラベルが与えられた後続のフレームでセグメント化することを指す。
既存のアルゴリズムは、主にマッチングと伝搬戦略の目的に基づいており、しばしば以前のフレームをマスキングや光の流れで利用する。
This paper explores a new propagation method, uses short-term matching modules to extract the information of the previous frame and apply it in propagation, and proposes the network of Long-Short-Term similarity matching for video object segmentation (LSMOVS) Method: By conducting pixel-level matching and correlation between long-term matching module and short-term matching module with the first frame and previous frame, global similarity map and local similarity map are obtained, as well as feature pattern of current frame and masking of previous frame.
2つの精製ネットワークの後、セグメンテーションネットワークを介して最終結果を得る。
結果: DAVIS 2016 と 2017 の2つのデータセットの実験結果によると,本手法は,オンラインの微調整を伴わずに,領域の類似点と輪郭の精度の良好な平均値を達成し,単一目標と複数目標の点で86.5%,77.4%を達成した。
また,1秒あたりの分画フレーム数は21。
結論:本稿で提案する短期マッチングモジュールは,マスクのみよりも前のフレームの情報を抽出する方が分かりやすい。
長期マッチングモジュールと短期マッチングモジュールを組み合わせることで、ネットの微調整なしに効率の良いビデオオブジェクト分割を実現することができる。
関連論文リスト
- Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Guided Interactive Video Object Segmentation Using Reliability-Based
Attention Maps [55.94785248905853]
本論文では,映像オブジェクトの対話的セグメンテーション(GIS)アルゴリズムを提案し,セグメンテーション精度の向上と対話時間の短縮を図る。
我々は,隣接フレームにセグメンテーション結果を伝達する,交差点対応伝搬モジュールを開発した。
実験により,提案アルゴリズムは従来のアルゴリズムよりも高速に精度の高いセグメンテーション結果を提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T07:08:57Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Interactive Video Object Segmentation Using Global and Local Transfer
Modules [51.93009196085043]
我々はアノテーションネットワーク(A-Net)と転送ネットワーク(T-Net)からなるディープニューラルネットワークを開発する。
A-Netは、フレーム上のユーザ記述を前提として、エンコーダ-デコーダアーキテクチャに基づいたセグメンテーション結果を生成する。
ユーザスクリブルをエミュレートし,補助的な損失を生かして,ネットワーク全体を2段階に分けてトレーニングする。
論文 参考訳(メタデータ) (2020-07-16T06:49:07Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。