論文の概要: SpVOS: Efficient Video Object Segmentation with Triple Sparse
Convolution
- arxiv url: http://arxiv.org/abs/2310.15115v1
- Date: Mon, 23 Oct 2023 17:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:26:38.188458
- Title: SpVOS: Efficient Video Object Segmentation with Triple Sparse
Convolution
- Title(参考訳): spvos:トリプルスパース畳み込みによる効率的なビデオオブジェクトセグメンテーション
- Authors: Weihao Lin, Tao Chen, Chong Yu
- Abstract要約: 本研究は,ビデオオブジェクト分割フレームワーク全体の計算コストを削減するために,新しい3重スパース畳み込みを開発した。
DAVISとYoutube-VOSを含む2つの主流VOSデータセットで実験が行われる。
その結果,提案するSpVOSは,他の最先端スパース手法よりも優れた性能を示し,同等の性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 18.332130780309797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation (Semi-VOS), which requires only
annotating the first frame of a video to segment future frames, has received
increased attention recently. Among existing pipelines, the
memory-matching-based one is becoming the main research stream, as it can fully
utilize the temporal sequence information to obtain high-quality segmentation
results. Even though this type of method has achieved promising performance,
the overall framework still suffers from heavy computation overhead, mainly
caused by the per-frame dense convolution operations between high-resolution
feature maps and each kernel filter. Therefore, we propose a sparse baseline of
VOS named SpVOS in this work, which develops a novel triple sparse convolution
to reduce the computation costs of the overall VOS framework. The designed
triple gate, taking full consideration of both spatial and temporal redundancy
between adjacent video frames, adaptively makes a triple decision to decide how
to apply the sparse convolution on each pixel to control the computation
overhead of each layer, while maintaining sufficient discrimination capability
to distinguish similar objects and avoid error accumulation. A mixed sparse
training strategy, coupled with a designed objective considering the sparsity
constraint, is also developed to balance the VOS segmentation performance and
computation costs. Experiments are conducted on two mainstream VOS datasets,
including DAVIS and Youtube-VOS. Results show that, the proposed SpVOS achieves
superior performance over other state-of-the-art sparse methods, and even
maintains comparable performance, e.g., an 83.04% (79.29%) overall score on the
DAVIS-2017 (Youtube-VOS) validation set, with the typical non-sparse VOS
baseline (82.88% for DAVIS-2017 and 80.36% for Youtube-VOS) while saving up to
42% FLOPs, showing its application potential for resource-constrained
scenarios.
- Abstract(参考訳): ビデオの最初のフレームに注釈を付けるだけで将来のフレームを分割できるセミ教師付きビデオオブジェクトセグメンテーション(Semi-VOS)が最近注目を集めている。
既存のパイプラインの中では、時間的シーケンス情報を十分に活用して高品質なセグメンテーション結果を得ることができるため、メモリマッチングベースのパイプラインが主要な研究ストリームになりつつある。
このタイプのメソッドは有望な性能を実現したが、フレームワーク全体の計算オーバーヘッドは依然として重く、主に高分解能特徴マップとカーネルフィルタ間のフレーム毎の密畳込み操作によって引き起こされている。
そこで本研究では,VOSフレームワーク全体の計算コストを削減するために,新しい3重スパース畳み込みを開発する,SpVOSというVOSのスパースベースラインを提案する。
設計された三重ゲートは、隣接するビデオフレーム間の空間的および時間的冗長性を十分に考慮し、各画素にスパース畳み込みを適用して各レイヤの計算オーバーヘッドを制御する方法を決定するとともに、類似したオブジェクトを識別し、エラーの蓄積を避けるための十分な識別能力を維持する。
また, VOSセグメンテーション性能と計算コストのバランスをとるために, 混合スパース学習戦略と, 疎度制約を考慮した設計目標が組み合わさった。
DAVISとYoutube-VOSを含む2つの主流VOSデータセットで実験が行われる。
その結果、提案されたSpVOSは他の最先端のスパース手法よりも優れた性能を示し、DAVIS-2017(Youtube-VOS)検証セットの総合スコアの83.04% (79.29%)、典型的な非スパースVOSベースライン(DAVIS-2017は82.88%、Youtube-VOSは80.36%)、最大42%のFLOPを節約し、リソース制約のあるシナリオに適用可能性を示している。
関連論文リスト
- fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence [50.417261057533786]
fVDBは、大規模な3Dデータのディープラーニングのための新しいフレームワークである。
私たちのフレームワークは、既存のパイプラインとの相互運用性を可能にするPyTorchと完全に統合されています。
論文 参考訳(メタデータ) (2024-07-01T20:20:33Z) - Efficient Video Object Segmentation via Modulated Cross-Attention Memory [123.12273176475863]
頻繁なメモリ拡張を必要とせず、時間的滑らかさをモデル化するトランスフォーマーベースの手法MAVOSを提案する。
我々のMAVOSは、単一のV100 GPU上で37フレーム/秒(FPS)で動作しながら、J&Fスコア63.3%を達成する。
論文 参考訳(メタデータ) (2024-03-26T17:59:58Z) - OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos [42.944135041061166]
本稿では,効率的な映像分割を実現するために,圧縮ビデオのためのAR-Segと呼ばれる修正解像度フレームワークを提案する。
AR-Segは、非キーフレームに対して低解像度を使用することで、計算コストを削減することを目的としている。
CamVidとCityscapesの実験によると、AR-Segは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-13T15:58:15Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。