論文の概要: Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory
- arxiv url: http://arxiv.org/abs/2004.12170v1
- Date: Sat, 25 Apr 2020 15:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 22:02:47.773360
- Title: Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory
- Title(参考訳): マルチタスクロスとスキップメモリを用いたシーケンス-シーケンス間ビデオオブジェクトセグメンテーションの再検討
- Authors: Fatemeh Azimi, Benjamin Bischke, Sebastian Palacio, Federico Raue,
Joern Hees, Andreas Dengel
- Abstract要約: ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
- 参考スコア(独自算出の注目度): 4.343892430915579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Object Segmentation (VOS) is an active research area of the visual
domain. One of its fundamental sub-tasks is semi-supervised / one-shot
learning: given only the segmentation mask for the first frame, the task is to
provide pixel-accurate masks for the object over the rest of the sequence.
Despite much progress in the last years, we noticed that many of the existing
approaches lose objects in longer sequences, especially when the object is
small or briefly occluded. In this work, we build upon a sequence-to-sequence
approach that employs an encoder-decoder architecture together with a memory
module for exploiting the sequential data. We further improve this approach by
proposing a model that manipulates multi-scale spatio-temporal information
using memory-equipped skip connections. Furthermore, we incorporate an
auxiliary task based on distance classification which greatly enhances the
quality of edges in segmentation masks. We compare our approach to the state of
the art and show considerable improvement in the contour accuracy metric and
the overall segmentation accuracy.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(VOS)は、視覚領域の活発な研究領域である。
その基本的なサブタスクの1つは、半教師あり/ワンショット学習である: 最初のフレームのセグメンテーションマスクのみを与えられた場合、そのタスクは、残りのシーケンスの上のオブジェクトにピクセル精度のマスクを提供することである。
過去数年間に多くの進歩があったにもかかわらず、既存のアプローチの多くは、特にオブジェクトが小さい場合や、短期間に隠された場合、長いシーケンスでオブジェクトを失うことに気づきました。
本研究では,エンコーダ・デコーダアーキテクチャとシーケンシャルデータを利用するメモリモジュールを併用したシーケンシャル・ツー・シーケンス手法を構築した。
我々は,メモリ付きスキップ接続を用いて,複数スケールの時空間情報を操作するモデルを提案することにより,このアプローチをさらに改善する。
さらに,セグメンテーションマスクのエッジ品質を大幅に向上させる距離分類に基づく補助タスクも取り入れた。
我々は,このアプローチを最先端技術と比較し,輪郭精度測定値と全体的なセグメンテーション精度を大幅に改善した。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Multi-task deep learning for image segmentation using recursive
approximation tasks [5.735162284272276]
セグメンテーションのためのディープニューラルネットワークは通常、手作業で作成するのに高価な大量のピクセルレベルのラベルを必要とする。
本研究では,この制約を緩和するマルチタスク学習手法を提案する。
ネットワークは、非常に少量の精度で区切られた画像と大量の粗いラベルで訓練されている。
論文 参考訳(メタデータ) (2020-05-26T21:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。