論文の概要: Robust and Efficient Memory Network for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2304.11840v1
- Date: Mon, 24 Apr 2023 06:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:09:56.928533
- Title: Robust and Efficient Memory Network for Video Object Segmentation
- Title(参考訳): ビデオオブジェクト分割のためのロバストかつ効率的なメモリネットワーク
- Authors: Yadang Chen, Dingwei Zhang, Zhi-xin Yang, Enhua Wu
- Abstract要約: 本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
- 参考スコア(独自算出の注目度): 6.7995672846437305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a Robust and Efficient Memory Network, referred to as
REMN, for studying semi-supervised video object segmentation (VOS).
Memory-based methods have recently achieved outstanding VOS performance by
performing non-local pixel-wise matching between the query and memory. However,
these methods have two limitations. 1) Non-local matching could cause
distractor objects in the background to be incorrectly segmented. 2) Memory
features with high temporal redundancy consume significant computing resources.
For limitation 1, we introduce a local attention mechanism that tackles the
background distraction by enhancing the features of foreground objects with the
previous mask. For limitation 2, we first adaptively decide whether to update
the memory features depending on the variation of foreground objects to reduce
temporal redundancy. Second, we employ a dynamic memory bank, which uses a
lightweight and differentiable soft modulation gate to decide how many memory
features need to be removed in the temporal dimension. Experiments demonstrate
that our REMN achieves state-of-the-art results on DAVIS 2017, with a
$\mathcal{J\&F}$ score of 86.3% and on YouTube-VOS 2018, with a $\mathcal{G}$
over mean of 85.5%. Furthermore, our network shows a high inference speed of
25+ FPS and uses relatively few computing resources.
- Abstract(参考訳): 本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワークREMNを提案する。
メモリベースの手法は、最近、クエリとメモリ間の非局所的な画素ワイドマッチングを実行することで、優れたVOS性能を実現している。
しかし、これらの方法には2つの制限がある。
1)非局所マッチングは,背景の乱れオブジェクトを誤ったセグメント化させる可能性がある。
2) 時間的冗長性が高いメモリ機能は、重要な計算資源を消費する。
限界1では,前景物体の特徴を前景マスクで高めることにより,背景の気晴らしに対処できる局所注意機構を導入する。
制限2の場合、まず前景オブジェクトの変動に応じてメモリ特徴を更新するかどうかを適応的に決定し、時間的冗長性を低減する。
第二に、動的メモリバンクを用いており、これは軽量で微分可能なソフト変調ゲートを用いて、時間次元においてメモリの特徴をいくつ取り除かなければならないかを決定する。
実験によると、我々のREMNはDAVIS 2017の最先端の結果を、$\mathcal{J\&F}$スコア86.3%、YouTube-VOS 2018の$\mathcal{G}$平均85.5%で達成している。
さらに,本ネットワークは25FPS以上の推論速度を示し,比較的少ない計算資源を使用する。
関連論文リスト
- LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。
本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。
提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文 参考訳(メタデータ) (2024-07-05T07:55:19Z) - MAMBA: Multi-level Aggregation via Memory Bank for Video Object
Detection [35.16197118579414]
我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。
具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。
従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-01-18T12:13:06Z) - Region Aware Video Object Segmentation with Deep Motion Modeling [56.95836951559529]
Region Aware Video Object (RAVOS) は、効率的なオブジェクトセグメンテーションとメモリストレージのための関心領域を予測する手法である。
効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。
効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの移動経路内の特徴を記憶することで,冗長なコンテキストをフィルタリングする動作パスメモリを提案する。
論文 参考訳(メタデータ) (2022-07-21T01:44:40Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。