論文の概要: Unsupervised Video Object Segmentation via Prototype Memory Network
- arxiv url: http://arxiv.org/abs/2209.03712v1
- Date: Thu, 8 Sep 2022 11:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:07:38.212420
- Title: Unsupervised Video Object Segmentation via Prototype Memory Network
- Title(参考訳): プロトタイプメモリネットワークによる教師なしビデオオブジェクトセグメンテーション
- Authors: Minhyeok Lee, Suhwan Cho, Seunghoon Lee, Chaewon Park, Sangyoun Lee
- Abstract要約: 教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.612292166628669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation aims to segment a target object in the
video without a ground truth mask in the initial frame. This challenging task
requires extracting features for the most salient common objects within a video
sequence. This difficulty can be solved by using motion information such as
optical flow, but using only the information between adjacent frames results in
poor connectivity between distant frames and poor performance. To solve this
problem, we propose a novel prototype memory network architecture. The proposed
model effectively extracts the RGB and motion information by extracting
superpixel-based component prototypes from the input RGB images and optical
flow maps. In addition, the model scores the usefulness of the component
prototypes in each frame based on a self-learning algorithm and adaptively
stores the most useful prototypes in memory and discards obsolete prototypes.
We use the prototypes in the memory bank to predict the next query frames mask,
which enhances the association between distant frames to help with accurate
mask prediction. Our method is evaluated on three datasets, achieving
state-of-the-art performance. We prove the effectiveness of the proposed model
with various ablation studies.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この挑戦的なタスクは、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出する必要がある。
この難易度は、光フローなどの動作情報を使用することで解決できるが、隣接するフレーム間の情報のみを使用することで、遠隔フレーム間の接続性が悪く、性能が劣る。
そこで本研究では,新しいプロトタイプメモリネットワークアーキテクチャを提案する。
提案モデルは、入力されたRGB画像と光フローマップからスーパーピクセルベースのコンポーネントプロトタイプを抽出することにより、RGBとモーション情報を効果的に抽出する。
さらに、自己学習アルゴリズムに基づいて各フレームにおけるコンポーネントプロトタイプの有用性を評価し、最も有用なプロトタイプをメモリに適応的に格納し、古いプロトタイプを捨てる。
メモリバンクのプロトタイプを用いて次のクエリフレームマスクを予測することで,遠隔フレーム間の関連性を向上し,マスクの正確な予測を支援する。
提案手法は3つのデータセットで評価し,最先端の性能を実現する。
様々なアブレーション研究により,提案モデルの有効性を検証した。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Anyview: Generalizable Indoor 3D Object Detection with Variable Frames [63.51422844333147]
我々は,AnyViewという新しい3D検出フレームワークを実用化するために提案する。
本手法は, 単純かつクリーンなアーキテクチャを用いて, 高い一般化性と高い検出精度を実現する。
論文 参考訳(メタデータ) (2023-10-09T02:15:45Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation [86.94578023985677]
ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。
提案手法は,最先端技術に対する魅力的な性能を実現する。
論文 参考訳(メタデータ) (2021-08-11T07:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。