論文の概要: Mining Relations among Cross-Frame Affinities for Video Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2207.10436v1
- Date: Thu, 21 Jul 2022 12:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:14:22.414088
- Title: Mining Relations among Cross-Frame Affinities for Video Semantic
Segmentation
- Title(参考訳): ビデオ意味セグメンテーションのためのクロスフレームアフィニティ間のマイニング関係
- Authors: Guolei Sun, Yun Liu, Hao Tang, Ajad Chhatkuli, Le Zhang, Luc Van Gool
- Abstract要約: 関連性間の関係を, 単一スケールの内在的相関と多スケールの関係という2つの側面で検討する。
実験により,提案手法は最先端のVSS法に対して好適に動作することを示した。
- 参考スコア(独自算出の注目度): 87.4854250338374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The essence of video semantic segmentation (VSS) is how to leverage temporal
information for prediction. Previous efforts are mainly devoted to developing
new techniques to calculate the cross-frame affinities such as optical flow and
attention. Instead, this paper contributes from a different angle by mining
relations among cross-frame affinities, upon which better temporal information
aggregation could be achieved. We explore relations among affinities in two
aspects: single-scale intrinsic correlations and multi-scale relations.
Inspired by traditional feature processing, we propose Single-scale Affinity
Refinement (SAR) and Multi-scale Affinity Aggregation (MAA). To make it
feasible to execute MAA, we propose a Selective Token Masking (STM) strategy to
select a subset of consistent reference tokens for different scales when
calculating affinities, which also improves the efficiency of our method. At
last, the cross-frame affinities strengthened by SAR and MAA are adopted for
adaptively aggregating temporal information. Our experiments demonstrate that
the proposed method performs favorably against state-of-the-art VSS methods.
The code is publicly available at https://github.com/GuoleiSun/VSS-MRCFA
- Abstract(参考訳): ビデオセマンティックセグメンテーション(VSS)の本質は、時間的情報を予測に活用する方法である。
従来の取り組みは主に、光学フローや注意などのフレーム間の親和性を計算する新しい手法の開発に費やされていた。
そこで,本論文は,時間的情報集約を向上する上で,クロスフレーム親和性間のマイニング関係によって異なる角度から寄与する。
関連性間の関係を, 単一スケールの内在的相関と多スケールの関係という2つの側面で検討する。
従来の特徴処理にヒントを得て,SAR(Single-scale Affinity Refinement)とMAA(Multi-scale Affinity Aggregation)を提案する。
そこで本研究では,maaの実施を可能にするために,アフィニティを計算する際に異なるスケールで一貫性のある参照トークンのサブセットを選択する選択的トークンマスキング(stm)戦略を提案する。
最終的に、SARおよびMAAにより強化されたクロスフレーム親和性を用いて、時間情報を適応的に集約する。
実験により,提案手法は最先端のVSS法に対して好適に動作することを示した。
コードはhttps://github.com/GuoleiSun/VSS-MRCFAで公開されている。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Morphologically-Aware Consensus Computation via Heuristics-based
IterATive Optimization (MACCHIatO) [1.8749305679160362]
本稿では,慎重に選択された距離のFr'echet平均に基づいて,二分法あるいは確率的コンセンサスセグメンテーションを構築する手法を提案する。
その結果,2値のコンセンサスマスクが多数投票とSTAPLEの中間サイズとなり,Mask Averaging法とSTAPLE法との違いが判明した。
論文 参考訳(メタデータ) (2023-09-14T23:28:58Z) - Hierarchical Dense Correlation Distillation for Few-Shot
Segmentation-Extended Abstract [47.85056124410376]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーションだけで見えないクラスをセグメンテーションするクラスに依存しないモデルを構築することを目的としている。
我々は、トランスアーキテクチャに基づく階層的分離マッチングネットワーク(HDMNet)マイニングピクセルレベルのサポート相関を設計する。
本稿では,列車セットの過度適合を低減し,粗い分解から意味対応を生かした相関蒸留を導入し,細粒度セグメンテーションを向上するマッチングモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-27T08:10:20Z) - FECANet: Boosting Few-Shot Semantic Segmentation with Feature-Enhanced
Context-Aware Network [48.912196729711624]
Few-shot セマンティックセグメンテーション(Few-shot semantic segmentation)は、新しいクラスの各ピクセルを、わずかに注釈付きサポートイメージで検索するタスクである。
本稿では,クラス間の類似性に起因するマッチングノイズを抑制するために,機能拡張コンテキスト認識ネットワーク(FECANet)を提案する。
さらに,前景と背景の余分な対応関係を符号化する新たな相関再構成モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-19T16:31:13Z) - Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement [39.06589186472675]
マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-10T07:57:05Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Temporally-Consistent Surface Reconstruction using Metrically-Consistent
Atlases [131.50372468579067]
そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。
我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応性を確立することができる。
当社のアプローチは、いくつかの挑戦的なデータセットにおいて、最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-11-12T17:48:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。