論文の概要: Pixel-Level Bijective Matching for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2110.01644v1
- Date: Mon, 4 Oct 2021 18:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:12:46.197834
- Title: Pixel-Level Bijective Matching for Video Object Segmentation
- Title(参考訳): ビデオオブジェクト分割のためのPixel-Level Bijective Matching
- Authors: Suhwan Cho, Heansung Lee, Minjung Kim, Sungjun Jang, Sangyoun Lee
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオの初期フレームに存在する指定されたオブジェクトをピクセルレベルで追跡することを目的としている。
オブジェクトの外観情報をフル活用するために、VOSでは画素レベルの特徴マッチングが広く使われている。
- 参考スコア(独自算出の注目度): 5.534170059632168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised video object segmentation (VOS) aims to track the designated
objects present in the initial frame of a video at the pixel level. To fully
exploit the appearance information of an object, pixel-level feature matching
is widely used in VOS. Conventional feature matching runs in a surjective
manner, i.e., only the best matches from the query frame to the reference frame
are considered. Each location in the query frame refers to the optimal location
in the reference frame regardless of how often each reference frame location is
referenced. This works well in most cases and is robust against rapid
appearance variations, but may cause critical errors when the query frame
contains background distractors that look similar to the target object. To
mitigate this concern, we introduce a bijective matching mechanism to find the
best matches from the query frame to the reference frame and vice versa. Before
finding the best matches for the query frame pixels, the optimal matches for
the reference frame pixels are first considered to prevent each reference frame
pixel from being overly referenced. As this mechanism operates in a strict
manner, i.e., pixels are connected if and only if they are the sure matches for
each other, it can effectively eliminate background distractors. In addition,
we propose a mask embedding module to improve the existing mask propagation
method. By embedding multiple historic masks with coordinate information, it
can effectively capture the position information of a target object.
- Abstract(参考訳): 半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオの初期フレームに存在する指定されたオブジェクトをピクセルレベルで追跡することを目的としている。
オブジェクトの外観情報をフル活用するために、VOSでは画素レベルの特徴マッチングが広く使われている。
従来の特徴マッチングは、探索的な方法で実行され、すなわち、クエリフレームから参照フレームへのベストマッチのみが考慮される。
クエリフレーム内の各位置は、参照フレーム内の各参照フレーム位置の頻度にかかわらず、参照フレーム内の最適な位置を参照する。
これはほとんどのケースでうまく動作し、迅速な外観変化に対して堅牢であるが、クエリフレームがターゲットオブジェクトに類似したバックグラウンドの邪魔者を含む場合、重大なエラーを引き起こす可能性がある。
この問題を緩和するために,クエリフレームから参照フレームへのベストマッチを見つけるためのビジェクティブマッチング機構を導入し,その逆も提案する。
クエリフレーム画素の最適なマッチングを見つける前に、まず、参照フレーム画素の最適なマッチングが、各参照フレーム画素が過度に参照されないように考慮される。
このメカニズムは厳格に動作し、つまりピクセルが互いに確実に一致している場合にのみ接続されるため、背景の邪魔を効果的に排除することができる。
さらに,既存のマスク伝搬法を改善するために,マスク埋め込みモジュールを提案する。
複数の履歴マスクを座標情報に埋め込むことで、対象物の位置情報を効果的に捕捉することができる。
関連論文リスト
- Space-time Reinforcement Network for Video Object Segmentation [16.67780344875854]
ビデオオブジェクトセグメンテーション(VOS)ネットワークは通常、メモリベースの手法を使用する。
これらの手法は,1) 隣接するビデオフレーム間の空間的コヒーレンスをデータの整合によって破壊し,2) 画素レベルのマッチングが望ましくないミスマッチを引き起こすという2つの問題に悩まされる。
本稿では,隣接フレーム間の補助フレームを生成することを提案し,クエリの暗黙的短時間参照として機能する。
論文 参考訳(メタデータ) (2024-05-07T06:26:30Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Iteratively Selecting an Easy Reference Frame Makes Unsupervised Video
Object Segmentation Easier [9.11515991493206]
非教師付きビデオオブジェクトセグメンテーション(UVOS)は、前景オブジェクトの真理(GT)マスクを使わずに、前景オブジェクトをビデオの背景から分離することを目的としている。
以前のUVOSモデルは、最初のフレームまたはビデオ全体を参照フレームとして使用し、前景オブジェクトのマスクを指定する。
参照フレームとして、第1フレームやビデオ全体のみを使用することよりも、UVOSのパフォーマンスを向上させるために、より優れた参照フレームを選択することができると信じている。
論文 参考訳(メタデータ) (2021-12-23T07:54:15Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。