論文の概要: Kernelized Memory Network for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2007.08270v1
- Date: Thu, 16 Jul 2020 11:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 23:24:50.586375
- Title: Kernelized Memory Network for Video Object Segmentation
- Title(参考訳): ビデオオブジェクト分割のためのカーネル化メモリネットワーク
- Authors: Hongje Seong, Junhyuk Hyun, Euntai Kim
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーション(VOS)の問題を解決するために,カーネル型メモリネットワーク(KMN)を提案する。
提案されたKMNは、標準ベンチマークの最先端をかなりのマージン(DAVIS 2017 test-dev セットで+5%)で上回っている。
KMN のランタイムは DAVIS 2016 バリデーションセットで1フレーム当たり 0.12 秒であり、STM と比較して KMN が余分な計算を必要とすることは滅多にない。
- 参考スコア(独自算出の注目度): 22.881898195409885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation (VOS) is a task that involves
predicting a target object in a video when the ground truth segmentation mask
of the target object is given in the first frame. Recently, space-time memory
networks (STM) have received significant attention as a promising solution for
semi-supervised VOS. However, an important point is overlooked when applying
STM to VOS. The solution (STM) is non-local, but the problem (VOS) is
predominantly local. To solve the mismatch between STM and VOS, we propose a
kernelized memory network (KMN). Before being trained on real videos, our KMN
is pre-trained on static images, as in previous works. Unlike in previous
works, we use the Hide-and-Seek strategy in pre-training to obtain the best
possible results in handling occlusions and segment boundary extraction. The
proposed KMN surpasses the state-of-the-art on standard benchmarks by a
significant margin (+5% on DAVIS 2017 test-dev set). In addition, the runtime
of KMN is 0.12 seconds per frame on the DAVIS 2016 validation set, and the KMN
rarely requires extra computation, when compared with STM.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(英: Semi-supervised Video Object segmentation、VOS)は、ターゲットオブジェクトの接地真実セグメンテーションマスクが第1フレームに与えられるとき、ビデオ中の対象オブジェクトを予測するタスクである。
近年,時空メモリネットワーク (STM) は, 半教師付きVOSにおいて有望なソリューションとして注目されている。
しかし、VOSにSTMを適用する場合、重要な点は見過ごされる。
解(STM)は非局所的であるが、問題(VOS)は主に局所的である。
STMとVOSのミスマッチを解決するために,カーネル型メモリネットワーク(KMN)を提案する。
実際のビデオでトレーニングされる前に、我々のKMNは、以前の作品のように静的イメージで事前トレーニングされています。
先行研究と異なり,前訓練における隠れ・見抜き戦略を用いて咬合処理とセグメント境界抽出の最良の結果を得る。
提案されたKMNは、標準ベンチマークの最先端をかなり上回り(DAVIS 2017 test-dev セットでは+5%)。
さらに、KMNのランタイムはDAVIS 2016バリデーションセットで1フレーム当たり0.12秒であり、STMと比較してKMNが余分な計算を必要とすることは滅多にない。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals [78.12377360145078]
画素埋め込みを学習するために、コントラスト最適化の目的として、予め決められた事前を取り入れた新しい2段階フレームワークを導入する。
これは、プロキシタスクやエンドツーエンドのクラスタリングに依存する既存の作業から大きく逸脱している。
特に、PASCALでラベル付き例の1%だけを用いて学習した表現を微調整すると、7.1% mIoUで教師付き ImageNet の事前トレーニングを上回ります。
論文 参考訳(メタデータ) (2021-02-11T18:54:47Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。