論文の概要: Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration
- arxiv url: http://arxiv.org/abs/2212.07592v1
- Date: Thu, 15 Dec 2022 02:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:50:40.363245
- Title: Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration
- Title(参考訳): ビデオにおけるインスタンスセグメンテーションの謎を解く:時空間協調による弱い監視フレームワーク
- Authors: Liqi Yan, Qifan Wang, Siqi Ma, Jingang Wang, Changbin Yu
- Abstract要約: ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
- 参考スコア(独自算出の注目度): 13.284951215948052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instance segmentation in videos, which aims to segment and track multiple
objects in video frames, has garnered a flurry of research attention in recent
years. In this paper, we present a novel weakly supervised framework with
\textbf{S}patio-\textbf{T}emporal \textbf{C}ollaboration for instance
\textbf{Seg}mentation in videos, namely \textbf{STC-Seg}. Concretely, STC-Seg
demonstrates four contributions. First, we leverage the complementary
representations from unsupervised depth estimation and optical flow to produce
effective pseudo-labels for training deep networks and predicting high-quality
instance masks. Second, to enhance the mask generation, we devise a puzzle
loss, which enables end-to-end training using box-level annotations. Third, our
tracking module jointly utilizes bounding-box diagonal points with
spatio-temporal discrepancy to model movements, which largely improves the
robustness to different object appearances. Finally, our framework is flexible
and enables image-level instance segmentation methods to operate the
video-level task. We conduct an extensive set of experiments on the KITTI MOTS
and YT-VIS datasets. Experimental results demonstrate that our method achieves
strong performance and even outperforms fully supervised TrackR-CNN and
MaskTrack R-CNN. We believe that STC-Seg can be a valuable addition to the
community, as it reflects the tip of an iceberg about the innovative
opportunities in the weakly supervised paradigm for instance segmentation in
videos.
- Abstract(参考訳): ビデオフレーム内の複数のオブジェクトのセグメンテーションと追跡を目的としたビデオのインスタンスセグメンテーションは、近年、多くの研究の注目を集めている。
本稿では,ビデオ中の<textbf{s}patio->textbf{t}emporal \textbf{c}ollaboration for example \textbf{seg}mentation,すなわち \textbf{stc-seg} を用いた,新しい弱教師付きフレームワークを提案する。
具体的には、STC-Segは4つの貢献を示している。
まず,教師なし深さ推定とオプティカルフローによる補完表現を活用し,ディープネットワークのトレーニングと高品質インスタンスマスクの予測に有効な擬似ラベルを生成する。
第二に,ボックスレベルのアノテーションを用いたエンドツーエンドのトレーニングを可能にするパズル損失を考案する。
第3に、追跡モジュールは時空間差の有界対角点をモデル運動に併用することにより、異なる物体の出現に対するロバスト性を大幅に向上させる。
最後に、このフレームワークは柔軟であり、画像レベルのインスタンスセグメンテーションメソッドがビデオレベルのタスクを操作することができる。
我々は,KITTI MOTSとYT-VISデータセットについて広範な実験を行った。
実験の結果,提案手法は高い性能を示し,TrackR-CNNとMaskTrack R-CNNの完全教師付き性能よりも優れていた。
STC-Segは、ビデオのセグメンテーションにおける弱教師付きパラダイムにおける革新的な機会についての氷山の一端を反映しているので、コミュニティにとって価値のある追加になると考えています。
関連論文リスト
- What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Learning to Track Instances without Video Annotations [85.9865889886669]
本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。
画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。
さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
論文 参考訳(メタデータ) (2021-04-01T06:47:41Z) - SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation [7.544917072241684]
ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-18T14:31:15Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。