論文の概要: Perceptual Consistency in Video Segmentation
- arxiv url: http://arxiv.org/abs/2110.12385v1
- Date: Sun, 24 Oct 2021 08:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 13:18:55.983138
- Title: Perceptual Consistency in Video Segmentation
- Title(参考訳): ビデオセグメンテーションにおける知覚的一貫性
- Authors: Yizhe Zhang, Shubhankar Borse, Hong Cai, Ying Wang, Ning Bi, Xiaoyun
Jiang, Fatih Porikli
- Abstract要約: 近接する2つのビデオフレームが与えられた場合、知覚的一貫性は、セグメンテーション決定が一般的な知覚的特徴と一致するピクセル対応とどの程度一致しているかを測定する。
実験の結果,提案した知覚的一貫性は,映像分割の時間的一貫性をより正確に評価できることがわかった。
分類信頼性のみを使用する場合と比較して、ラベル付けされていないテストフレーム上でのセグメンテーションの精度をより確実に予測するのに役立つ。
- 参考スコア(独自算出の注目度): 70.4434953097028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel perceptual consistency perspective on video
semantic segmentation, which can capture both temporal consistency and
pixel-wise correctness. Given two nearby video frames, perceptual consistency
measures how much the segmentation decisions agree with the pixel
correspondences obtained via matching general perceptual features. More
specifically, for each pixel in one frame, we find the most perceptually
correlated pixel in the other frame. Our intuition is that such a pair of
pixels are highly likely to belong to the same class. Next, we assess how much
the segmentation agrees with such perceptual correspondences, based on which we
derive the perceptual consistency of the segmentation maps across these two
frames. Utilizing perceptual consistency, we can evaluate the temporal
consistency of video segmentation by measuring the perceptual consistency over
consecutive pairs of segmentation maps in a video. Furthermore, given a
sparsely labeled test video, perceptual consistency can be utilized to aid with
predicting the pixel-wise correctness of the segmentation on an unlabeled
frame. More specifically, by measuring the perceptual consistency between the
predicted segmentation and the available ground truth on a nearby frame and
combining it with the segmentation confidence, we can accurately assess the
classification correctness on each pixel. Our experiments show that the
proposed perceptual consistency can more accurately evaluate the temporal
consistency of video segmentation as compared to flow-based measures.
Furthermore, it can help more confidently predict segmentation accuracy on
unlabeled test frames, as compared to using classification confidence alone.
Finally, our proposed measure can be used as a regularizer during the training
of segmentation models, which leads to more temporally consistent video
segmentation while maintaining accuracy.
- Abstract(参考訳): 本稿では,ビデオセマンティックセグメンテーションにおいて,時間的一貫性と画素単位の正確性の両方をキャプチャできる新しい知覚的一貫性視点を提案する。
近接する2つのビデオフレームが与えられると、知覚一貫性は、セグメンテーション決定が一般的な知覚特徴のマッチングによって得られたピクセル対応とどの程度の一致するかを測定する。
具体的には、あるフレーム内の各ピクセルに対して、もう一方のフレーム内で最も知覚的に相関したピクセルを見つける。
我々の直感では、そのようなピクセルのペアは同じクラスに属する可能性が高い。
次に,これらの2つのフレーム間のセグメンテーションマップの知覚整合性に基づいて,セグメンテーションがそのような知覚対応とどの程度一致しているかを評価する。
映像における連続したセグメンテーションマップの知覚一貫性を計測することにより,映像セグメンテーションの時間的一貫性を評価することができる。
さらに、無ラベルのフレーム上でのセグメンテーションの画素単位の正しさを予測するのに役立つ知覚的一貫性を利用することができる。
より具体的には、予測されたセグメンテーションと近くのフレーム上の利用可能な地上真実との知覚的整合性を測定し、セグメンテーションの信頼度と組み合わせることで、各ピクセルの分類精度を正確に評価することができる。
提案する知覚的一貫性は,フローに基づく尺度と比較して,映像セグメンテーションの時間的一貫性をより正確に評価できることを示す。
さらに、分類信頼性のみを使用する場合と比較して、ラベルのないテストフレーム上でのセグメンテーション精度をより確実に予測することができる。
最後に,提案手法はセグメント化モデルのトレーニングにおいて正規化器として使用することができ,精度を維持しつつ時間的に一貫した映像分割を実現する。
関連論文リスト
- PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Pixel-level Correspondence for Self-Supervised Learning from Video [56.24439897867531]
ピクセルレベルの対応 (PiCo) はビデオから高密度なコントラスト学習を行う方法である。
標準的なベンチマークでPiCoを検証し、複数の高密度予測タスクで自己教師付きベースラインを上回ります。
論文 参考訳(メタデータ) (2022-07-08T12:50:13Z) - Consistent Video Instance Segmentation with Inter-Frame Recurrent
Attention [23.72098615213679]
ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。
最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。
本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:22:55Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Video Instance Segmentation by Instance Flow Assembly [23.001856276175506]
箱のない特徴を扱うボトムアップ手法は、フレーム間の正確な空間的相関を提供する。
フレーム間の相関関係をよりよくエンコードするための時間的コンテキスト融合モジュールを備えたフレームワークを提案する。
実験により、提案手法は、挑戦的なYoutube-VISデータセット上で、最先端のオンライン手法(画像レベルの入力を取る)よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-20T14:49:28Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。