論文の概要: Exploring the Semi-supervised Video Object Segmentation Problem from a
Cyclic Perspective
- arxiv url: http://arxiv.org/abs/2111.01323v1
- Date: Tue, 2 Nov 2021 01:50:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 22:17:28.745877
- Title: Exploring the Semi-supervised Video Object Segmentation Problem from a
Cyclic Perspective
- Title(参考訳): 周期的視点から見た半教師付きビデオオブジェクト分割問題の探索
- Authors: Yuxi Li, Ning Xu, Wenjie Yang, John See, Weiyao Lin
- Abstract要約: 本稿では,半教師付きビデオオブジェクトセグメンテーション問題を循環ワークフローに配置する。
標準的な逐次フローに組み込まれた循環機構は、ピクセルワイド対応のより一貫性のある表現を実現できることを示す。
また、勾配補正プロセスに基づくサイクル有効受容場(サイクルERF)を開発し、対象分野の関心領域を解析するための新たな視点を提供する。
- 参考スコア(独自算出の注目度): 36.4057004419079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern video object segmentation (VOS) algorithms have achieved remarkably
high performance in a sequential processing order, while most of currently
prevailing pipelines still show some obvious inadequacy like accumulative
error, unknown robustness or lack of proper interpretation tools. In this
paper, we place the semi-supervised video object segmentation problem into a
cyclic workflow and find the defects above can be collectively addressed via
the inherent cyclic property of semi-supervised VOS systems. Firstly, a cyclic
mechanism incorporated to the standard sequential flow can produce more
consistent representations for pixel-wise correspondance. Relying on the
accurate reference mask in the starting frame, we show that the error
propagation problem can be mitigated. Next, a simple gradient correction
module, which naturally extends the offline cyclic pipeline to an online
manner, can highlight the high-frequent and detailed part of results to further
improve the segmentation quality while keeping feasible computation cost.
Meanwhile such correction can protect the network from severe performance
degration resulted from interference signals. Finally we develop cycle
effective receptive field (cycle-ERF) based on gradient correction process to
provide a new perspective into analyzing object-specific regions of interests.
We conduct comprehensive comparison and detailed analysis on challenging
benchmarks of DAVIS16, DAVIS17 and Youtube-VOS, demonstrating that the cyclic
mechanism is helpful to enhance segmentation quality, improve the robustness of
VOS systems, and further provide qualitative comparison and interpretation on
how different VOS algorithms work. The code of this project can be found at
https://github.com/lyxok1/STM-Training
- Abstract(参考訳): 現代のビデオオブジェクトセグメンテーション(vos)アルゴリズムは、シーケンシャルな処理順序で驚くほど高いパフォーマンスを達成しているが、現在普及しているパイプラインのほとんどは、蓄積エラー、未知のロバスト性、適切な解釈ツールの欠如といった明らかな不備を示している。
本稿では,半教師付きビデオオブジェクトセグメンテーション問題を循環ワークフローに配置し,上記の欠陥を半教師付きVOSシステムの本質的循環特性によって一括的に解決できることを示す。
第一に、標準的なシーケンシャルフローに組み込まれた循環機構は、ピクセルワイド対応のより一貫性のある表現を生成することができる。
開始フレームの正確な参照マスクを用いて,誤差伝搬問題を緩和できることを示す。
次に、オフライン循環パイプラインをオンライン的に自然に拡張する単純な勾配補正モジュールにより、高頻度かつ詳細な結果の部分を強調し、計算コストを抑えながらセグメンテーション品質をさらに向上させることができる。
一方、この補正は、干渉信号による深刻な性能低下からネットワークを保護することができる。
最後に,傾斜補正プロセスに基づくサイクル有効受容場(cycle-erf)を開発し,対象に固有の関心領域を分析する新しい視点を提供する。
我々は,DAVIS16,DAVIS17,Youtube-VOSの挑戦的ベンチマークに関する包括的な比較と詳細な分析を行い,この循環機構がセグメンテーション品質の向上,VOSシステムの堅牢性の向上,VOSアルゴリズムの動作方法の質的比較と解釈を提供する。
プロジェクトのコードはhttps://github.com/lyxok1/STM-Trainingにある。
関連論文リスト
- Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Betrayed by Attention: A Simple yet Effective Approach for
Self-supervised Video Object Segmentation [82.26906652229715]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration [85.3323211054274]
ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-20T14:14:48Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation [24.884078497381633]
VOS(Transformer-based approach to video object segmentation)について紹介する。
注意に基づくアプローチによって、モデルが複数のフレームの歴史的特徴を乗り越えることを学ぶことができます。
提案手法は,YouTube-VOS と DAVIS 2017 において,最先端技術と比較してスケーラビリティとロバスト性の向上を図った。
論文 参考訳(メタデータ) (2021-01-21T20:06:12Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Delving into the Cyclic Mechanism in Semi-supervised Video Object
Segmentation [37.3336313567187]
循環機構は、より堅牢な表現を生成するために、標準的な半教師付きプロセスに組み込まれる。
オフラインパイプラインをオンライン手法に拡張する単純な勾配補正モジュールを導入する。
最後に、勾配補正に基づくサイクル有効受容場(サイクルERF)を開発し、対象分野の関心領域を解析するための新たな視点を提供する。
論文 参考訳(メタデータ) (2020-10-23T05:40:53Z) - Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching [3.9053553775979086]
ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
論文 参考訳(メタデータ) (2020-10-10T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。