論文の概要: Exploring the Semi-supervised Video Object Segmentation Problem from a
Cyclic Perspective
- arxiv url: http://arxiv.org/abs/2111.01323v1
- Date: Tue, 2 Nov 2021 01:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 22:17:28.745877
- Title: Exploring the Semi-supervised Video Object Segmentation Problem from a
Cyclic Perspective
- Title(参考訳): 周期的視点から見た半教師付きビデオオブジェクト分割問題の探索
- Authors: Yuxi Li, Ning Xu, Wenjie Yang, John See, Weiyao Lin
- Abstract要約: 本稿では,半教師付きビデオオブジェクトセグメンテーション問題を循環ワークフローに配置する。
標準的な逐次フローに組み込まれた循環機構は、ピクセルワイド対応のより一貫性のある表現を実現できることを示す。
また、勾配補正プロセスに基づくサイクル有効受容場(サイクルERF)を開発し、対象分野の関心領域を解析するための新たな視点を提供する。
- 参考スコア(独自算出の注目度): 36.4057004419079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video object segmentation (VOS) algorithms have achieved remarkably
high performance in a sequential processing order, while most of currently
prevailing pipelines still show some obvious inadequacy like accumulative
error, unknown robustness or lack of proper interpretation tools. In this
paper, we place the semi-supervised video object segmentation problem into a
cyclic workflow and find the defects above can be collectively addressed via
the inherent cyclic property of semi-supervised VOS systems. Firstly, a cyclic
mechanism incorporated to the standard sequential flow can produce more
consistent representations for pixel-wise correspondance. Relying on the
accurate reference mask in the starting frame, we show that the error
propagation problem can be mitigated. Next, a simple gradient correction
module, which naturally extends the offline cyclic pipeline to an online
manner, can highlight the high-frequent and detailed part of results to further
improve the segmentation quality while keeping feasible computation cost.
Meanwhile such correction can protect the network from severe performance
degration resulted from interference signals. Finally we develop cycle
effective receptive field (cycle-ERF) based on gradient correction process to
provide a new perspective into analyzing object-specific regions of interests.
We conduct comprehensive comparison and detailed analysis on challenging
benchmarks of DAVIS16, DAVIS17 and Youtube-VOS, demonstrating that the cyclic
mechanism is helpful to enhance segmentation quality, improve the robustness of
VOS systems, and further provide qualitative comparison and interpretation on
how different VOS algorithms work. The code of this project can be found at
https://github.com/lyxok1/STM-Training
- Abstract(参考訳): 現代のビデオオブジェクトセグメンテーション(vos)アルゴリズムは、シーケンシャルな処理順序で驚くほど高いパフォーマンスを達成しているが、現在普及しているパイプラインのほとんどは、蓄積エラー、未知のロバスト性、適切な解釈ツールの欠如といった明らかな不備を示している。
本稿では,半教師付きビデオオブジェクトセグメンテーション問題を循環ワークフローに配置し,上記の欠陥を半教師付きVOSシステムの本質的循環特性によって一括的に解決できることを示す。
第一に、標準的なシーケンシャルフローに組み込まれた循環機構は、ピクセルワイド対応のより一貫性のある表現を生成することができる。
開始フレームの正確な参照マスクを用いて,誤差伝搬問題を緩和できることを示す。
次に、オフライン循環パイプラインをオンライン的に自然に拡張する単純な勾配補正モジュールにより、高頻度かつ詳細な結果の部分を強調し、計算コストを抑えながらセグメンテーション品質をさらに向上させることができる。
一方、この補正は、干渉信号による深刻な性能低下からネットワークを保護することができる。
最後に,傾斜補正プロセスに基づくサイクル有効受容場(cycle-erf)を開発し,対象に固有の関心領域を分析する新しい視点を提供する。
我々は,DAVIS16,DAVIS17,Youtube-VOSの挑戦的ベンチマークに関する包括的な比較と詳細な分析を行い,この循環機構がセグメンテーション品質の向上,VOSシステムの堅牢性の向上,VOSアルゴリズムの動作方法の質的比較と解釈を提供する。
プロジェクトのコードはhttps://github.com/lyxok1/STM-Trainingにある。
関連論文リスト
- Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Delving into the Cyclic Mechanism in Semi-supervised Video Object
Segmentation [37.3336313567187]
循環機構は、より堅牢な表現を生成するために、標準的な半教師付きプロセスに組み込まれる。
オフラインパイプラインをオンライン手法に拡張する単純な勾配補正モジュールを導入する。
最後に、勾配補正に基づくサイクル有効受容場(サイクルERF)を開発し、対象分野の関心領域を解析するための新たな視点を提供する。
論文 参考訳(メタデータ) (2020-10-23T05:40:53Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。