論文の概要: A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment
- arxiv url: http://arxiv.org/abs/2010.09501v2
- Date: Fri, 13 Nov 2020 02:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:06:26.629105
- Title: A Backbone Replaceable Fine-tuning Framework for Stable Face Alignment
- Title(参考訳): 安定顔アライメントのためのバックボーン交換可能なファインチューニングフレームワーク
- Authors: Xu Sun, Zhenfeng Fan, Zihao Zhang, Yingjie Guo, Shihong Xia
- Abstract要約: そこで本稿では,時空間情報を利用して不正確なランドマークを抑えるジッタロス関数を提案する。
提案手法は安定性評価の指標を40%以上改善する。
モデル全体をリトレーニングすることなく、素早く顔画像のランドマーク検出器を、ビデオのためのより良いパフォーマンスの検出器に変換することができる。
- 参考スコア(独自算出の注目度): 21.696696531924374
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Heatmap regression based face alignment has achieved prominent performance on
static images. However, the stability and accuracy are remarkably discounted
when applying the existing methods on dynamic videos. We attribute the
degradation to random noise and motion blur, which are common in videos. The
temporal information is critical to address this issue yet not fully considered
in the existing works. In this paper, we visit the video-oriented face
alignment problem in two perspectives: detection accuracy prefers lower error
for a single frame, and detection consistency forces better stability between
adjacent frames. On this basis, we propose a Jitter loss function that
leverages temporal information to suppress inaccurate as well as jittered
landmarks. The Jitter loss is involved in a novel framework with a fine-tuning
ConvLSTM structure over a backbone replaceable network. We further demonstrate
that accurate and stable landmarks are associated with different regions with
overlaps in a canonical coordinate, based on which the proposed Jitter loss
facilitates the optimization process during training. The proposed framework
achieves at least 40% improvement on stability evaluation metrics while
enhancing detection accuracy versus state-of-the-art methods. Generally, it can
swiftly convert a landmark detector for facial images to a better-performing
one for videos without retraining the entire model.
- Abstract(参考訳): 熱マップ回帰に基づく顔アライメントは静的画像上で顕著な性能を達成した。
しかし,既存の手法を動的ビデオに適用する場合,安定性と精度は著しく低下する。
ビデオによく見られる無作為なノイズや動きのぼやけに劣化を特徴づける。
時間的情報は、まだ既存の作品では十分に考慮されていないこの問題に対処するために重要である。
本稿では,ビデオ指向の顔アライメント問題を,検出精度が単一フレームよりも低い誤差を優先し,検出整合性により隣接フレーム間の安定性が向上する,という2つの視点で検討する。
そこで本研究では,時空間情報を活用するジッタロス関数を提案し,不正確なランドマークやジッタランドマークを抑える。
Jitterの損失は、バックボーン交換可能なネットワーク上に細調整されたConvLSTM構造を持つ新しいフレームワークに関係している。
さらに,提案するジッタ損失が学習中の最適化プロセスを促進することで,正準座標の重なりを持つ異なる領域に正確かつ安定なランドマークが関連付けられることを実証する。
提案手法は安定性評価の指標を40%以上改善し,検出精度と最先端手法の精度を向上する。
一般的には、顔画像のランドマーク検出器を、モデル全体を再トレーニングすることなく、よりパフォーマンスの良いビデオに素早く変換することができる。
関連論文リスト
- Video Dynamics Prior: An Internal Learning Approach for Robust Video
Enhancements [83.5820690348833]
外部トレーニングデータコーパスを必要としない低レベルの視覚タスクのためのフレームワークを提案する。
提案手法は,コヒーレンス・時間的テストの重み付けと統計内部統計を利用して,破損したシーケンスを最適化することでニューラルモジュールを学習する。
論文 参考訳(メタデータ) (2023-12-13T01:57:11Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - Fast Full-frame Video Stabilization with Iterative Optimization [21.962533235492625]
ビデオ安定化のための合成データセットを用いた反復的最適化に基づく学習手法を提案する。
確率的流れ場に基づく2レベル(粗粒度)安定化アルゴリズムを開発した。
そこで本研究では,分割コンカレントアプローチを採用し,フルフレーム安定化ビューをレンダリングするための新しいマルチフレーム融合戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T13:24:19Z) - GPU-accelerated SIFT-aided source identification of stabilized videos [63.084540168532065]
我々は、安定化フレームインバージョンフレームワークにおけるグラフィクス処理ユニット(GPU)の並列化機能を利用する。
我々はSIFT機能を活用することを提案する。
カメラのモーメントを推定し 1%の確率で 時間セグメントを識別します
実験により,提案手法の有効性を確認し,必要な計算時間を短縮し,情報源の同定精度を向上させる。
論文 参考訳(メタデータ) (2022-07-29T07:01:31Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。