論文の概要: Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement
- arxiv url: http://arxiv.org/abs/2301.03832v1
- Date: Tue, 10 Jan 2023 07:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:55:35.783235
- Title: Video Semantic Segmentation with Inter-Frame Feature Fusion and
Inner-Frame Feature Refinement
- Title(参考訳): フレーム間特徴融合と内部フレーム特徴の細分化による映像意味セグメンテーション
- Authors: Jiafan Zhuang, Zilei Wang, Junjie Li
- Abstract要約: マルチフレーム特徴量間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
さらに,セマンティックバウンダリ間の困難な予測に対処するために,メモリ拡張改良(MAR)モジュールを提案する。
- 参考スコア(独自算出の注目度): 39.06589186472675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video semantic segmentation aims to generate accurate semantic maps for each
video frame. To this end, many works dedicate to integrate diverse information
from consecutive frames to enhance the features for prediction, where a feature
alignment procedure via estimated optical flow is usually required. However,
the optical flow would inevitably suffer from inaccuracy, and then introduce
noises in feature fusion and further result in unsatisfactory segmentation
results. In this paper, to tackle the misalignment issue, we propose a
spatial-temporal fusion (STF) module to model dense pairwise relationships
among multi-frame features. Different from previous methods, STF uniformly and
adaptively fuses features at different spatial and temporal positions, and
avoids error-prone optical flow estimation. Besides, we further exploit feature
refinement within a single frame and propose a novel memory-augmented
refinement (MAR) module to tackle difficult predictions among semantic
boundaries. Specifically, MAR can store the boundary features and prototypes
extracted from the training samples, which together form the task-specific
memory, and then use them to refine the features during inference. Essentially,
MAR can move the hard features closer to the most likely category and thus make
them more discriminative. We conduct extensive experiments on Cityscapes and
CamVid, and the results show that our proposed methods significantly outperform
previous methods and achieves the state-of-the-art performance. Code and
pretrained models are available at https://github.com/jfzhuang/ST_Memory.
- Abstract(参考訳): ビデオセマンティクスセグメンテーションは、各ビデオフレームの正確なセマンティクスマップを生成することを目的としている。
この目的のために、連続するフレームから多様な情報を統合して、推定光流による特徴アライメント手順が通常必要となる予測のための特徴を強化するために、多くの研究が費やされている。
しかし、光学流は必然的に不正確さに悩まされ、特徴融合にノイズを導入し、さらに不満足なセグメンテーション結果をもたらす。
本稿では,不整合問題に対処するため,多フレーム特徴間の密接なペア関係をモデル化するための時空間融合(STF)モジュールを提案する。
従来の手法と異なり、STFは空間的および時間的位置の異なる特徴を均一かつ適応的に融合し、エラーを起こしやすい光フロー推定を回避する。
さらに,単一フレーム内の機能改善をさらに活用し,意味境界間の難解な予測に対処すべく,新しいメモリ・オーグメンテーション・リファインメント(mar)モジュールを提案する。
具体的には、MARはトレーニングサンプルから抽出した境界特徴とプロトタイプを格納し、タスク固有のメモリをまとめて、推論時に特徴を洗練させる。
基本的に、MARはハード機能を最も可能性の高いカテゴリに近づけることで、より差別的になる。
本研究では,Cityscapes と CamVid に関する広範な実験を行い,提案手法が従来の手法より大幅に優れ,最先端の性能を実現することを示す。
コードと事前トレーニングされたモデルはhttps://github.com/jfzhuang/st_memoryで入手できる。
関連論文リスト
- MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition [36.426688592783975]
MVP-Shotは、セマンティック関連アクション機能をマルチ速度レベルで学習し、調整するフレームワークである。
MVFAモジュールは、サポートからのフィーチャと、異なる速度スケールのクエリビデオの類似度を測定する。
PSTモジュールは、チャネルと時間領域の機能相互作用を通じて、速度調整されたテキスト情報をビデオ機能に注入する。
論文 参考訳(メタデータ) (2024-05-03T13:10:16Z) - ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Semantic Diffusion Network for Semantic Segmentation [1.933681537640272]
セマンティック境界認識を強化する演算子レベルのアプローチを導入する。
意味拡散ネットワーク(SDN)と呼ばれる新しい学習可能なアプローチを提案する。
我々のSDNは、元の機能からクラス間境界強化機能への微分可能なマッピングを構築することを目的としています。
論文 参考訳(メタデータ) (2023-02-04T01:39:16Z) - Mining Relations among Cross-Frame Affinities for Video Semantic
Segmentation [87.4854250338374]
関連性間の関係を, 単一スケールの内在的相関と多スケールの関係という2つの側面で検討する。
実験により,提案手法は最先端のVSS法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2022-07-21T12:12:36Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - MUNet: Motion Uncertainty-aware Semi-supervised Video Object
Segmentation [31.100954335785026]
本稿では,映像オブジェクトの半教師付きセグメンテーションのための動作不確実性認識フレームワーク(MUNet)を提案する。
動作特徴と意味的特徴を効果的に融合する動き認識型空間アテンションモジュールを提案する。
トレーニングにDAVIS17のみを使用する$76.5%の$mathcalJとmathcalF$は、低データプロトコル下でのtextitSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-29T16:01:28Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。