論文の概要: Efficient Video Segmentation Models with Per-frame Inference
- arxiv url: http://arxiv.org/abs/2202.12427v1
- Date: Thu, 24 Feb 2022 23:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 14:58:23.932180
- Title: Efficient Video Segmentation Models with Per-frame Inference
- Title(参考訳): フレーム単位の推論による効率的な映像分割モデル
- Authors: Yifan Liu, Chunhua Shen, Changqian Yu, Jingdong Wang
- Abstract要約: 推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
- 参考スコア(独自算出の注目度): 117.97423110566963
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most existing real-time deep models trained with each frame independently may
produce inconsistent results across the temporal axis when tested on a video
sequence. A few methods take the correlations in the video sequence into
account,e.g., by propagating the results to the neighboring frames using
optical flow or extracting frame representations using multi-frame information,
which may lead to inaccurate results or unbalanced latency. In this work, we
focus on improving the temporal consistency without introducing computation
overhead in inference. To this end, we perform inference at each frame.
Temporal consistency is achieved by learning from video frames with extra
constraints during the training phase. introduced for inference. We propose
several techniques to learn from the video sequence, including a temporal
consistency loss and online/offline knowledge distillation methods. On the task
of semantic video segmentation, weighing among accuracy, temporal smoothness,
and efficiency, our proposed method outperforms keyframe-based methods and a
few baseline methods that are trained with each frame independently, on
datasets including Cityscapes, Camvid, and 300VW-Mask. We further apply our
training method to video instance segmentation on YouTubeVISand develop an
application of portrait matting in video sequences, by segmenting temporally
consistent instance-level trimaps across frames. Experiments show superior
qualitative and quantitative results. Code is available at:
https://git.io/vidseg.
- Abstract(参考訳): 各フレームで独立にトレーニングされた既存の実時間深層モデルは、ビデオシーケンスでテストした場合、時間軸全体で一貫性のない結果を生み出す可能性がある。
いくつかの方法は、例えば、光学フローを用いて結果を隣のフレームに伝播したり、多フレーム情報を用いてフレーム表現を抽出することで、不正確な結果や不均衡な遅延につながる可能性がある。
本研究では,推論における計算オーバーヘッドを導入することなく,時間的整合性を改善することに注力する。
この目的のために、各フレームで推論を行う。
時間的一貫性は、トレーニングフェーズ中に追加制約のあるビデオフレームから学習することで達成される。
推論のために導入されました
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
提案手法は,セマンティックビデオセグメンテーションの課題,精度,時間的スムーズ性,効率の面で,Cityscapes,Camvid,300VW-Maskなどのデータセットに基づいて,キーフレームベースの手法と,各フレームで個別にトレーニングされたいくつかのベースライン手法より優れている。
さらに,本トレーニング手法をYouTubeVIS上のビデオインスタンスセグメンテーションに適用し,フレーム間の時間的一貫したインスタンスレベルのトリマップをセグメント化することで,動画シーケンスにおけるポートレートマッチングの応用を開発する。
実験は質的かつ定量的な結果を示す。
コードはhttps://git.io/vidseg.com/。
関連論文リスト
- FIFO-Diffusion: Generating Infinite Videos from Text without Training [44.65468310143439]
FIFO-Diffusionは概念的には、追加のトレーニングなしで無限に長いビデオを生成することができる。
提案手法では, 頭部に完全に識別されたフレームを列挙し, 尾部に新しいランダムノイズフレームを列挙する。
提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。
論文 参考訳(メタデータ) (2024-05-19T07:48:41Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - A Perceptual Quality Metric for Video Frame Interpolation [6.743340926667941]
ビデオフレームの結果は、しばしばユニークな成果物であるので、既存の品質指標は、結果を測定するときに人間の知覚と一致しないことがある。
最近のディープラーニングベースの品質指標は、人間の判断とより整合性を示すが、時間的情報を考慮していないため、ビデオ上でのパフォーマンスは損なわれている。
本手法は,個々のフレームではなく,ビデオから直接知覚的特徴を学習する。
論文 参考訳(メタデータ) (2022-10-04T19:56:10Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。