論文の概要: Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching
- arxiv url: http://arxiv.org/abs/2010.05069v2
- Date: Sat, 7 Nov 2020 09:33:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:21:07.962502
- Title: Hybrid-S2S: Video Object Segmentation with Recurrent Networks and
Correspondence Matching
- Title(参考訳): ハイブリッドS2S:リカレントネットワークと対応マッチングによるビデオオブジェクトセグメンテーション
- Authors: Fatemeh Azimi and Stanislav Frolov and Federico Raue and Joern Hees
and Andreas Dengel
- Abstract要約: ワンショットビデオオブジェクト(ワンショットビデオオブジェクト、英: One-shot Video Object、VOS)は、ビデオシーケンス内で関心のあるオブジェクトを追跡するタスクである。
本稿では,RNNをベースとしたアーキテクチャについて検討し,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
実験の結果,RNNを対応マッチングで拡張することはドリフト問題を低減するのに極めて有効な解であることがわかった。
- 参考スコア(独自算出の注目度): 3.9053553775979086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot Video Object Segmentation~(VOS) is the task of pixel-wise tracking
an object of interest within a video sequence, where the segmentation mask of
the first frame is given at inference time. In recent years, Recurrent Neural
Networks~(RNNs) have been widely used for VOS tasks, but they often suffer from
limitations such as drift and error propagation. In this work, we study an
RNN-based architecture and address some of these issues by proposing a hybrid
sequence-to-sequence architecture named HS2S, utilizing a dual mask propagation
strategy that allows incorporating the information obtained from correspondence
matching. Our experiments show that augmenting the RNN with correspondence
matching is a highly effective solution to reduce the drift problem. The
additional information helps the model to predict more accurate masks and makes
it robust against error propagation. We evaluate our HS2S model on the
DAVIS2017 dataset as well as Youtube-VOS. On the latter, we achieve an
improvement of 11.2pp in the overall segmentation accuracy over RNN-based
state-of-the-art methods in VOS. We analyze our model's behavior in challenging
cases such as occlusion and long sequences and show that our hybrid
architecture significantly enhances the segmentation quality in these difficult
scenarios.
- Abstract(参考訳): One-shot Video Object Segmentation~(VOS)は、第1フレームのセグメンテーションマスクが推論時に与えられるビデオシーケンス内の被写体をピクセル単位で追跡するタスクである。
近年、VOSタスクにはリカレントニューラルネットワーク~(RNN)が広く使われているが、ドリフトやエラー伝搬といった制限に悩まされることが多い。
本研究では,RNNベースのアーキテクチャについて検討し,対応マッチングから得られる情報を組み込む2つのマスク伝搬戦略を用いて,HS2Sというハイブリッドシーケンス・ツー・シーケンスアーキテクチャを提案する。
本実験は,対応マッチングによるrnnの強化がドリフト問題の軽減に極めて有効な解であることを示す。
追加情報は、モデルがより正確なマスクを予測し、エラーの伝播に対して堅牢になるのに役立つ。
DAVIS2017データセットとYoutube-VOSを用いたHS2Sモデルの評価を行った。
後者では、VOSにおけるRNNに基づく最先端手法よりも、全体のセグメント化精度が11.2pp向上した。
咬合や長いシーケンスなどの困難なケースでモデルの振る舞いを分析し,これらの困難なシナリオにおいて,ハイブリッドアーキテクチャがセグメンテーション品質を著しく向上させることを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Unsupervised Flow-Aligned Sequence-to-Sequence Learning for Video
Restoration [85.3323211054274]
ビデオシーケンス内のフレーム間関係を適切にモデル化する方法は、ビデオ復元(VR)において重要であるが未解決の課題である。
本研究では,この問題を解決するために,教師なしフローアライメントシーケンス・ツー・シーケンス・モデル(S2SVR)を提案する。
S2SVRは、ビデオデブリ、ビデオスーパー解像度、圧縮されたビデオ品質向上など、複数のVRタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-05-20T14:14:48Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Scene Understanding for Autonomous Driving [0.0]
Detectron2で提示されたRetinaNet, Faster R-CNN, Mask R-CNNの異なる構成の挙動を検討する。
関心のあるデータセット上でこれらのモデルを微調整した後、パフォーマンスの大幅な改善を観察します。
文脈外のデータセットを用いて異常な状況下で推論を行い、興味深い結果を示す。
論文 参考訳(メタデータ) (2021-05-11T09:50:05Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Recent Developments Combining Ensemble Smoother and Deep Generative
Networks for Facies History Matching [58.720142291102135]
本研究は、ファシズムモデルのための連続パラメータ化を構築するためのオートエンコーダネットワークの利用に焦点を当てる。
本稿では,VAE,GAN,Wasserstein GAN,変分自動符号化GAN,サイクルGANの主成分分析(PCA),転送スタイルネットワークのPCA,スタイル損失のVAEの7種類の定式化をベンチマークする。
論文 参考訳(メタデータ) (2020-05-08T21:32:42Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z) - Depth-wise Decomposition for Accelerating Separable Convolutions in
Efficient Convolutional Neural Networks [36.64158994999578]
多くのコンピュータビジョンタスクの主要な方法として、ディープ畳み込みニューラルネットワーク(CNN)が確立されている。
近年,計算能力に制限のあるプラットフォーム上での画像認識タスクに対して,深度的に分離可能な畳み込み法が提案されている。
本稿では, SVD に基づく新しい分解手法を提案し, 正規畳み込みを深度分割可能な畳み込みに拡張する。
論文 参考訳(メタデータ) (2019-10-21T15:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。