論文の概要: Local Memory Attention for Fast Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2101.01715v1
- Date: Tue, 5 Jan 2021 18:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:32:58.593254
- Title: Local Memory Attention for Fast Video Semantic Segmentation
- Title(参考訳): 高速ビデオセマンティックセグメンテーションのための局所記憶注意
- Authors: Matthieu Paul, Martin Danelljan, Luc Van Gool, Radu Timofte
- Abstract要約: 既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
- 参考スコア(独自算出の注目度): 157.7618884769969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel neural network module that transforms an existing
single-frame semantic segmentation model into a video semantic segmentation
pipeline. In contrast to prior works, we strive towards a simple and general
module that can be integrated into virtually any single-frame architecture. Our
approach aggregates a rich representation of the semantic information in past
frames into a memory module. Information stored in the memory is then accessed
through an attention mechanism. This provides temporal appearance cues from
prior frames, which are then fused with an encoding of the current frame
through a second attention-based module. The segmentation decoder processes the
fused representation to predict the final semantic segmentation. We integrate
our approach into two popular semantic segmentation networks: ERFNet and
PSPNet. We observe an improvement in segmentation performance on Cityscapes by
1.7% and 2.1% in mIoU respectively, while increasing inference time of ERFNet
by only 1.5ms.
- Abstract(参考訳): 本稿では,既存の単一フレームセマンティクスセグメンテーションモデルをビデオセマンティクスセグメンテーションパイプラインに変換するニューラルネットワークモジュールを提案する。
以前の作業とは対照的に、事実上任意の単一フレームアーキテクチャに統合可能なシンプルで一般的なモジュールを目指しています。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
メモリに格納された情報は、アテンション機構を介してアクセスされる。
これにより、前のフレームから時間的な外観の手がかりが提供され、第2の注意ベースのモジュールを通して現在のフレームの符号化で融合される。
セグメンテーションデコーダは融合表現を処理し、最終的なセグメンテーションを予測する。
ERFNetとPSPNetの2つの一般的なセマンティックセグメンテーションネットワークに統合する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
関連論文リスト
- Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - DPANET:Dual Pooling Attention Network for Semantic Segmentation [0.0]
我々はDPANet(Dual Pool Attention Network)という軽量で柔軟なニューラルネットワークを提案する。
第1のコンポーネントは空間プールアテンションモジュールであり、コンテキスト特性を抽出するための簡単で強力な手法を定式化する。
第2のコンポーネントは、チャンネルプールアテンションモジュールである。それゆえ、このモジュールの目的は、全てのチャンネルの関係を構築し、異なるチャンネルセマンティック情報を選択的に高めるために、それらを取り除くことである。
論文 参考訳(メタデータ) (2022-10-11T13:29:33Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - LSMVOS: Long-Short-Term Similarity Matching for Video Object [3.3518869877513895]
半教師付きビデオオブジェクトセグメンテーションは、第1フレームにオブジェクトラベルが与えられた後続のフレームでオブジェクトをセグメンテーションすることを指す。
本稿では,新しい伝搬法を探索し,短期的マッチングモジュールを用いて前のフレームの情報を抽出し,伝播に適用する。
長期マッチングモジュールと短期マッチングモジュールを組み合わせることで、オンラインの微調整なしに、ネットワーク全体が効率的なビデオオブジェクトセグメンテーションを実現することができる。
論文 参考訳(メタデータ) (2020-09-02T01:32:05Z) - Interactive Video Object Segmentation Using Global and Local Transfer
Modules [51.93009196085043]
我々はアノテーションネットワーク(A-Net)と転送ネットワーク(T-Net)からなるディープニューラルネットワークを開発する。
A-Netは、フレーム上のユーザ記述を前提として、エンコーダ-デコーダアーキテクチャに基づいたセグメンテーション結果を生成する。
ユーザスクリブルをエミュレートし,補助的な損失を生かして,ネットワーク全体を2段階に分けてトレーニングする。
論文 参考訳(メタデータ) (2020-07-16T06:49:07Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。