論文の概要: Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models
- arxiv url: http://arxiv.org/abs/2304.00600v1
- Date: Sun, 2 Apr 2023 19:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:11:44.826227
- Title: Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models
- Title(参考訳): 再帰のない再帰:深い平衡モデルによる安定したビデオランドマーク検出
- Authors: Paul Micaelli, Arash Vahdat, Hongxu Yin, Jan Kautz, Pavlo Molchanov
- Abstract要約: 本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 96.76758318732308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cascaded computation, whereby predictions are recurrently refined over
several stages, has been a persistent theme throughout the development of
landmark detection models. In this work, we show that the recently proposed
Deep Equilibrium Model (DEQ) can be naturally adapted to this form of
computation. Our Landmark DEQ (LDEQ) achieves state-of-the-art performance on
the challenging WFLW facial landmark dataset, reaching $3.92$ NME with fewer
parameters and a training memory cost of $\mathcal{O}(1)$ in the number of
recurrent modules. Furthermore, we show that DEQs are particularly suited for
landmark detection in videos. In this setting, it is typical to train on still
images due to the lack of labelled videos. This can lead to a ``flickering''
effect at inference time on video, whereby a model can rapidly oscillate
between different plausible solutions across consecutive frames. By rephrasing
DEQs as a constrained optimization, we emulate recurrence at inference time,
despite not having access to temporal data at training time. This Recurrence
without Recurrence (RwR) paradigm helps in reducing landmark flicker, which we
demonstrate by introducing a new metric, normalized mean flicker (NMF), and
contributing a new facial landmark video dataset (WFLW-V) targeting landmark
uncertainty. On the WFLW-V hard subset made up of $500$ videos, our LDEQ with
RwR improves the NME and NMF by $10$ and $13\%$ respectively, compared to the
strongest previously published model using a hand-tuned conventional filter.
- Abstract(参考訳): 予測を数段階にわたって繰り返し洗練するカスケード計算は、ランドマーク検出モデルの開発を通じて永続的なテーマとなっている。
本研究では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のランドマークDEQ(LDEQ)は、挑戦的なWFLW顔ランドマークデータセットの最先端のパフォーマンスを達成し、パラメータが少なくてトレーニングメモリコストが$\mathcal{O}(1)$である3.92$NMEに達した。
さらに,deqは映像中のランドマーク検出に特に適していることを示す。
この設定では、ラベル付きビデオがないため、静止画を訓練するのが一般的である。
これにより、連続するフレーム間で異なる可視性ソリューション間でモデルが素早く振動する、ビデオの推論時間における‘flickering’効果が生じる可能性がある。
deqを制約付き最適化として再現することで、トレーニング時に時間データにアクセスできなくても、推論時に再帰をエミュレートする。
このRecurrence without Recurrence(RwR)パラダイムは、ランドマークフリックを低減し、新しいメトリック、正規化平均フリック(NMF)を導入し、ランドマーク不確実性をターゲットとした新しい顔ランドマークビデオデータセット(WFLW-V)をコントリビュートする。
500ドルのビデオで構成されたWFLW-Vハードサブセットでは、手作りの従来のフィルターを使った最強のモデルと比較して、RwRを使ったLDEQはNMEとNMFをそれぞれ10ドルと13セントで改善します。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - A Hierarchical Variational Neural Uncertainty Model for Stochastic Video
Prediction [45.6432265855424]
本稿では,モデルの予測不確かさの原理的定量化であるニューラル不確実性量化器(NUQ)を紹介する。
提案するフレームワークは,最先端モデルと比較して効果的に訓練する。
論文 参考訳(メタデータ) (2021-10-06T00:25:22Z) - VAE^2: Preventing Posterior Collapse of Variational Video Predictions in
the Wild [131.58069944312248]
本稿では,VAE-in-VAEまたはVAE$2の新規なVAE構造を提案する。
我々は、観察されたビデオシーケンスの一部を、その過去と未来を橋渡しするランダムな遷移状態として扱い、あらゆる可能な遷移状態の下で、ビデオシーケンス上のマルコフ連鎖の可能性を最大化する。
VAE$2$は、未来と観測の間の直接的な依存を断ち切るため、後方崩壊問題を広範囲に緩和することができ、トレーニングデータによって提供される決定的な未来を直接遅らせることはない。
論文 参考訳(メタデータ) (2021-01-28T15:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。