論文の概要: Make One-Shot Video Object Segmentation Efficient Again
- arxiv url: http://arxiv.org/abs/2012.01866v1
- Date: Thu, 3 Dec 2020 12:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 22:32:21.320514
- Title: Make One-Shot Video Object Segmentation Efficient Again
- Title(参考訳): ワンショットビデオのオブジェクトセグメンテーションを効率良くする
- Authors: Tim Meinhardt and Laura Leal-Taixe
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
- 参考スコア(独自算出の注目度): 7.7415390727490445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object segmentation (VOS) describes the task of segmenting a set of
objects in each frame of a video. In the semi-supervised setting, the first
mask of each object is provided at test time. Following the one-shot principle,
fine-tuning VOS methods train a segmentation model separately on each given
object mask. However, recently the VOS community has deemed such a test time
optimization and its impact on the test runtime as unfeasible. To mitigate the
inefficiencies of previous fine-tuning approaches, we present efficient
One-Shot Video Object Segmentation (e-OSVOS). In contrast to most VOS
approaches, e-OSVOS decouples the object detection task and predicts only local
segmentation masks by applying a modified version of Mask R-CNN. The one-shot
test runtime and performance are optimized without a laborious and handcrafted
hyperparameter search. To this end, we meta learn the model initialization and
learning rates for the test time optimization. To achieve optimal learning
behavior, we predict individual learning rates at a neuron level. Furthermore,
we apply an online adaptation to address the common performance degradation
throughout a sequence by continuously fine-tuning the model on previous mask
predictions supported by a frame-to-frame bounding box propagation. e-OSVOS
provides state-of-the-art results on DAVIS 2016, DAVIS 2017, and YouTube-VOS
for one-shot fine-tuning methods while reducing the test runtime substantially.
Code is available at https://github.com/dvl-tum/e-osvos.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
半教師付き設定では、各オブジェクトの第1マスクがテスト時に提供される。
ワンショットの原則に従って、細調整のVOSメソッドは、それぞれのオブジェクトマスク上でセグメンテーションモデルを個別に訓練する。
しかし、最近、VOSコミュニティはこのようなテスト時間の最適化とテストランタイムへの影響を不可能とみなした。
従来の微調整手法の非効率性を軽減するため,効率の良いワンショットビデオオブジェクトセグメンテーション(e-OSVOS)を提案する。
多くのVOSアプローチとは対照的に、e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
ワンショットテストランタイムとパフォーマンスは、面倒で手作りのハイパーパラメータ検索なしで最適化される。
この目的のために、テスト時間最適化のためのモデル初期化と学習率をメタ学習する。
最適な学習行動を実現するために,ニューロンレベルで個々の学習率を予測する。
さらに、フレーム間バウンディングボックスの伝搬によって支持された以前のマスク予測に基づいてモデルを連続的に微調整することにより、シーケンス全体の共通性能劣化に対処するオンライン適応を適用する。
e-OSVOSはDAVIS 2016、DAVIS 2017、YouTube-VOSに対して、テストランタイムを大幅に削減しながらワンショットの微調整方法に関する最先端の結果を提供する。
コードはhttps://github.com/dvl-tum/e-osvosで入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z) - Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文 参考訳(メタデータ) (2020-02-17T01:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。