論文の概要: Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2106.05210v1
- Date: Wed, 9 Jun 2021 16:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 15:07:24.438884
- Title: Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation
- Title(参考訳): 効率的な映像オブジェクトセグメンテーションのためのメモリカバレッジ向上による時空間ネットワーク再考
- Authors: Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang
- Abstract要約: 各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
- 参考スコア(独自算出の注目度): 68.45737688496654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a simple yet effective approach to modeling space-time
correspondences in the context of video object segmentation. Unlike most
existing approaches, we establish correspondences directly between frames
without re-encoding the mask features for every object, leading to a highly
efficient and robust framework. With the correspondences, every node in the
current query frame is inferred by aggregating features from the past in an
associative fashion. We cast the aggregation process as a voting problem and
find that the existing inner-product affinity leads to poor use of memory with
a small (fixed) subset of memory nodes dominating the votes, regardless of the
query. In light of this phenomenon, we propose using the negative squared
Euclidean distance instead to compute the affinities. We validated that every
memory node now has a chance to contribute, and experimentally showed that such
diversified voting is beneficial to both memory efficiency and inference
accuracy. The synergy of correspondence networks and diversified voting works
exceedingly well, achieves new state-of-the-art results on both DAVIS and
YouTubeVOS datasets while running significantly faster at 20+ FPS for multiple
objects without bells and whistles.
- Abstract(参考訳): 本稿では,映像オブジェクトセグメンテーションの文脈における時空間対応のモデル化に,単純かつ効果的な手法を提案する。
既存のアプローチと異なり、すべてのオブジェクトのマスク機能を再エンコードすることなく、フレーム間で直接対応を確立することで、非常に効率的で堅牢なフレームワークを実現します。
これらの対応により、現在のクエリフレームの各ノードは、過去の特徴を連想的に集約することで推測される。
我々は,集計プロセスを投票問題とみなし,既存の内積親和性は,クエリに関係なく,メモリノードの小さな(固定された)サブセットが支配するメモリ使用率の低下につながることを見出した。
この現象に照らして, 負の2乗ユークリッド距離を用いてアフィニティを計算することを提案する。
すべてのメモリノードがコントリビュートする機会があることを検証し、その多角化投票がメモリ効率と推論精度の両方に有益であることを実験的に示した。
通信ネットワークのシナジーと多彩な投票作業の相乗効果は、DAVISとYouTubeVOSのデータセットにおいて、新たな最先端の結果を達成すると同時に、ベルやホイッスルのない複数のオブジェクトに対して、20以上のFPSで大幅に高速に実行される。
関連論文リスト
- SWEM: Towards Real-Time Video Object Segmentation with Sequential
Weighted Expectation-Maximization [36.43412404616356]
本稿では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。
SWEMは、シーケンシャル重み付きEMアルゴリズムを活用することで、フレーム内およびフレーム間類似の機能を組み合わせる。
一般的に使用されているDAVISとYouTube-VOSデータセットの実験は、高効率(36 FPS)と高パフォーマンス(84.3%$mathcalJ&mathcalF$ on DAVIS 2017 Validationデータセット)を検証する。
論文 参考訳(メタデータ) (2022-08-22T08:03:59Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Memory Aggregation Networks for Efficient Interactive Video Object
Segmentation [75.35173388837852]
インタラクティブなビデオオブジェクトセグメンテーション(iVOS)は、ユーザインタラクションを備えたビデオにおいて、ターゲットオブジェクトの高品質なセグメンテーションマスクを効率よく回収することを目的としている。
これまでの最先端技術では、ユーザインタラクションと時間的伝搬を行う2つの独立したネットワークでiVOSに取り組みました。
メモリ集約ネットワーク(MA-Net)と呼ばれる統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T07:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。