論文の概要: Learning Fast and Robust Target Models for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2003.00908v2
- Date: Tue, 31 Mar 2020 09:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:57:59.281526
- Title: Learning Fast and Robust Target Models for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための高速かつロバストなターゲットモデル学習
- Authors: Andreas Robinson, Felix J\"aremo Lawin, Martin Danelljan, Fahad
Shahbaz Khan, Michael Felsberg
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 83.3382606349118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object segmentation (VOS) is a highly challenging problem since the
initial mask, defining the target object, is only given at test-time. The main
difficulty is to effectively handle appearance changes and similar background
objects, while maintaining accurate segmentation. Most previous approaches
fine-tune segmentation networks on the first frame, resulting in impractical
frame-rates and risk of overfitting. More recent methods integrate generative
target appearance models, but either achieve limited robustness or require
large amounts of training data.
We propose a novel VOS architecture consisting of two network components. The
target appearance model consists of a light-weight module, which is learned
during the inference stage using fast optimization techniques to predict a
coarse but robust target segmentation. The segmentation model is exclusively
trained offline, designed to process the coarse scores into high quality
segmentation masks. Our method is fast, easily trainable and remains highly
effective in cases of limited training data. We perform extensive experiments
on the challenging YouTube-VOS and DAVIS datasets. Our network achieves
favorable performance, while operating at higher frame-rates compared to
state-of-the-art. Code and trained models are available at
https://github.com/andr345/frtm-vos.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
主な難点は、正確なセグメンテーションを維持しつつ、外観変化や類似の背景オブジェクトを効果的に扱うことである。
以前のほとんどのアプローチは、最初のフレームで微調整されたセグメンテーションネットワークにアプローチし、非実用的なフレームレートと過剰フィッティングのリスクを生み出した。
より最近の手法は、生成目標外観モデルを統合するが、限られた堅牢性を達成するか、大量のトレーニングデータを必要とする。
2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
ターゲットの外観モデルは、粗いが頑健なターゲットセグメンテーションを予測するために高速な最適化手法を用いて推論段階で学習される軽量モジュールで構成されている。
セグメンテーションモデルはオフラインでのみトレーニングされており、粗いスコアを高品質なセグメンテーションマスクに加工するように設計されている。
本手法は高速かつ容易に訓練可能であり,限られた訓練データの場合においても有効である。
我々は、挑戦的なYouTube-VOSとDAVISデータセットに関する広範な実験を行う。
本ネットワークは,最先端に比べて高いフレームレートで動作しながら,良好な性能を実現している。
コードとトレーニングされたモデルはhttps://github.com/andr345/frtm-vosで入手できる。
関連論文リスト
- Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective [1.79487674052027]
本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実際、SDForestは非常に低コストで、CPUでもリアルタイムに実現できる。
論文 参考訳(メタデータ) (2024-09-03T12:34:23Z) - SiamMask: A Framework for Fast Online Object Tracking and Segmentation [96.61632757952292]
SiamMaskは、ビジュアルオブジェクトトラッキングとビデオオブジェクトセグメンテーションの両方を、同じシンプルな方法でリアルタイムで実行するためのフレームワークである。
マルチタスクモデルを簡単に再利用することで、複数のオブジェクトのトラッキングとセグメンテーションを扱うためのフレームワークを拡張することができることを示す。
ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-07-05T14:47:17Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。