論文の概要: Efficient Semantic Video Segmentation with Per-frame Inference
- arxiv url: http://arxiv.org/abs/2002.11433v2
- Date: Fri, 17 Jul 2020 12:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 15:18:46.863010
- Title: Efficient Semantic Video Segmentation with Per-frame Inference
- Title(参考訳): フレームごとの推論による効率的なセマンティックビデオセグメンテーション
- Authors: Yifan Liu, Chunhua Shen, Changqian Yu, Jingdong Wang
- Abstract要約: 本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
- 参考スコア(独自算出の注目度): 117.97423110566963
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For semantic segmentation, most existing real-time deep models trained with
each frame independently may produce inconsistent results for a video sequence.
Advanced methods take into considerations the correlations in the video
sequence, e.g., by propagating the results to the neighboring frames using
optical flow, or extracting the frame representations with other frames, which
may lead to inaccurate results or unbalanced latency. In this work, we process
efficient semantic video segmentation in a per-frame fashion during the
inference process. Different from previous per-frame models, we explicitly
consider the temporal consistency among frames as extra constraints during the
training process and embed the temporal consistency into the segmentation
network. Therefore, in the inference process, we can process each frame
independently with no latency, and improve the temporal consistency with no
extra computational cost and post-processing. We employ compact models for
real-time execution. To narrow the performance gap between compact models and
large models, new knowledge distillation methods are designed. Our results
outperform previous keyframe based methods with a better trade-off between the
accuracy and the inference speed on popular benchmarks, including the
Cityscapes and Camvid. The temporal consistency is also improved compared with
corresponding baselines which are trained with each frame independently. Code
is available at: https://tinyurl.com/segment-video
- Abstract(参考訳): セマンティックセグメンテーションでは、各フレームで個別に訓練された既存のリアルタイムディープモデルのほとんどは、ビデオシーケンスに対して一貫性のない結果を生成することができる。
高度な手法は、例えば、結果を光学フローを用いて隣のフレームに伝播したり、他のフレームでフレーム表現を抽出することで、ビデオシーケンスの相関を考慮に入れ、不正確な結果や不均衡な遅延につながる可能性がある。
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
従来のフレーム単位のモデルとは異なり、フレーム間の時間的一貫性はトレーニングプロセス中に余分な制約として考慮し、時間的一貫性をセグメンテーションネットワークに埋め込む。
したがって、推論プロセスでは、各フレームをレイテンシなしで独立に処理し、余分な計算コストや後処理を伴わずに時間的一貫性を向上させることができる。
リアルタイム実行にはコンパクトモデルを使用します。
コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるため,新しい知識蒸留法が設計されている。
この結果は,CityscapesやCamvidなど,一般的なベンチマークの精度と推論速度のトレードオフを向上して,従来のキーフレームベースの手法よりも優れています。
また、各フレームで独立にトレーニングされる対応するベースラインと比較して、時間的一貫性も向上する。
コードは、https://tinyurl.com/segment-videoで入手できる。
関連論文リスト
- FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。