論文の概要: A Transductive Approach for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2004.07193v2
- Date: Thu, 16 Apr 2020 16:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 03:49:58.254095
- Title: A Transductive Approach for Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのためのトランスダクティブアプローチ
- Authors: Yizhuo Zhang, Zhirong Wu, Houwen Peng, and Stephen Lin
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーションは、第1フレームのマスクを考えると、対象オブジェクトをビデオシーケンスから分離することを目的としている。
現在の一般的な手法のほとんどは、光学フローやインスタンスセグメンテーションといった他の領域で訓練された追加モジュールの情報を利用する。
本稿では,モジュールやデータセット,専用のアーキテクチャ設計を必要としない,単純かつ強力なトランスダクティブ手法を提案する。
- 参考スコア(独自算出の注目度): 55.83842083823267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation aims to separate a target object
from a video sequence, given the mask in the first frame. Most of current
prevailing methods utilize information from additional modules trained in other
domains like optical flow and instance segmentation, and as a result they do
not compete with other methods on common ground. To address this issue, we
propose a simple yet strong transductive method, in which additional modules,
datasets, and dedicated architectural designs are not needed. Our method takes
a label propagation approach where pixel labels are passed forward based on
feature similarity in an embedding space. Different from other propagation
methods, ours diffuses temporal information in a holistic manner which take
accounts of long-term object appearance. In addition, our method requires few
additional computational overhead, and runs at a fast $\sim$37 fps speed. Our
single model with a vanilla ResNet50 backbone achieves an overall score of 72.3
on the DAVIS 2017 validation set and 63.1 on the test set. This simple yet high
performing and efficient method can serve as a solid baseline that facilitates
future research. Code and models are available at
\url{https://github.com/microsoft/transductive-vos.pytorch}.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーションは、第1フレームのマスクから対象オブジェクトをビデオシーケンスから分離することを目的としている。
現在の一般的な手法のほとんどは、光学フローやインスタンスセグメンテーションといった他の領域で訓練された追加のモジュールからの情報を利用しており、その結果、他の方法では競合しない。
この問題に対処するために,モジュールやデータセット,専用のアーキテクチャ設計を必要としない,シンプルながら強力なトランスダクティブ手法を提案する。
本手法は,埋め込み空間における特徴類似性に基づいて,画素ラベルを前方に転送するラベル伝搬手法である。
他の伝搬法と異なり、長期的対象の出現を考慮した時間情報を全体論的に拡散する。
さらに、計算オーバーヘッドも少なく、高速で$\sim$37 fpsの速度で動作します。
バニラResNet50バックボーンを備えた1つのモデルは、DAVIS 2017バリデーションセットで72.3、テストセットで63.1のスコアを得る。
この単純で高性能で効率的な方法は、将来の研究を促進するための基盤となる。
コードとモデルは \url{https://github.com/microsoft/transductive-vos.pytorch} で利用可能である。
関連論文リスト
- SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Unified Perception: Efficient Depth-Aware Video Panoptic Segmentation
with Minimal Annotation Costs [2.7920304852537536]
ビデオベースのトレーニングを必要とせずに最先端のパフォーマンスを実現するための,Unified Perceptionという新しいアプローチを提案する。
本手法では,画像ベースネットワークで計算されたオブジェクトの埋め込みを (再) 利用する,単純な2段階のカスケード追跡アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-03T15:00:12Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。