Fugu-MT 論文翻訳(概要): Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

論文の概要: Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation

arxiv url: http://arxiv.org/abs/2106.05210v1
Date: Wed, 9 Jun 2021 16:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 15:07:24.438884
Title: Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation
Title（参考訳）: 効率的な映像オブジェクトセグメンテーションのためのメモリカバレッジ向上による時空間ネットワーク再考
Authors: Ho Kei Cheng, Yu-Wing Tai, Chi-Keung Tang
Abstract要約: 各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
参考スコア（独自算出の注目度）: 68.45737688496654
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper presents a simple yet effective approach to modeling space-time correspondences in the context of video object segmentation. Unlike most existing approaches, we establish correspondences directly between frames without re-encoding the mask features for every object, leading to a highly efficient and robust framework. With the correspondences, every node in the current query frame is inferred by aggregating features from the past in an associative fashion. We cast the aggregation process as a voting problem and find that the existing inner-product affinity leads to poor use of memory with a small (fixed) subset of memory nodes dominating the votes, regardless of the query. In light of this phenomenon, we propose using the negative squared Euclidean distance instead to compute the affinities. We validated that every memory node now has a chance to contribute, and experimentally showed that such diversified voting is beneficial to both memory efficiency and inference accuracy. The synergy of correspondence networks and diversified voting works exceedingly well, achieves new state-of-the-art results on both DAVIS and YouTubeVOS datasets while running significantly faster at 20+ FPS for multiple objects without bells and whistles.
Abstract（参考訳）: 本稿では,映像オブジェクトセグメンテーションの文脈における時空間対応のモデル化に,単純かつ効果的な手法を提案する。既存のアプローチと異なり、すべてのオブジェクトのマスク機能を再エンコードすることなく、フレーム間で直接対応を確立することで、非常に効率的で堅牢なフレームワークを実現します。これらの対応により、現在のクエリフレームの各ノードは、過去の特徴を連想的に集約することで推測される。我々は,集計プロセスを投票問題とみなし,既存の内積親和性は,クエリに関係なく,メモリノードの小さな(固定された)サブセットが支配するメモリ使用率の低下につながることを見出した。この現象に照らして, 負の2乗ユークリッド距離を用いてアフィニティを計算することを提案する。すべてのメモリノードがコントリビュートする機会があることを検証し、その多角化投票がメモリ効率と推論精度の両方に有益であることを実験的に示した。通信ネットワークのシナジーと多彩な投票作業の相乗効果は、DAVISとYouTubeVOSのデータセットにおいて、新たな最先端の結果を達成すると同時に、ベルやホイッスルのない複数のオブジェクトに対して、20以上のFPSで大幅に高速に実行される。

関連論文リスト

From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。 MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
Space-time Reinforcement Network for Video Object Segmentation [16.67780344875854]
ビデオオブジェクトセグメンテーション(VOS)ネットワークは通常、メモリベースの手法を使用する。これらの手法は,1) 隣接するビデオフレーム間の空間的コヒーレンスをデータの整合によって破壊し,2) 画素レベルのマッチングが望ましくないミスマッチを引き起こすという2つの問題に悩まされる。本稿では,隣接フレーム間の補助フレームを生成することを提案し,クエリの暗黙的短時間参照として機能する。
論文参考訳（メタデータ） (2024-05-07T06:26:30Z)
Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-03-28T13:32:49Z)
Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文参考訳（メタデータ） (2024-03-18T07:31:39Z)
SWEM: Towards Real-Time Video Object Segmentation with Sequential Weighted Expectation-Maximization [36.43412404616356]
本稿では,メモリ特性の冗長性を大幅に低減するために,SWEM(Sequential Weighted expectation-Maximization)ネットワークを提案する。 SWEMは、シーケンシャル重み付きEMアルゴリズムを活用することで、フレーム内およびフレーム間類似の機能を組み合わせる。一般的に使用されているDAVISとYouTube-VOSデータセットの実験は、高効率(36 FPS)と高パフォーマンス(84.3%$mathcalJ&mathcalF$ on DAVIS 2017 Validationデータセット)を検証する。
論文参考訳（メタデータ） (2022-08-22T08:03:59Z)
Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。本稿では,Clip毎の推論に適した新しい手法を提案する。
論文参考訳（メタデータ） (2022-08-03T09:02:29Z)
Efficient Global-Local Memory for Real-time Instrument Segmentation of Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文参考訳（メタデータ） (2021-09-28T10:10:14Z)
Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文参考訳（メタデータ） (2021-03-24T02:08:46Z)
Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文参考訳（メタデータ） (2020-12-10T07:57:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。