論文の概要: End-to-End Lip Synchronisation Based on Pattern Classification
- arxiv url: http://arxiv.org/abs/2005.08606v2
- Date: Fri, 19 Mar 2021 06:55:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:42:55.184711
- Title: End-to-End Lip Synchronisation Based on Pattern Classification
- Title(参考訳): パターン分類に基づく終端唇同期
- Authors: You Jin Kim, Hee Soo Heo, Soo-Whan Chung and Bong-Jin Lee
- Abstract要約: 本稿では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドトレーニングネットワークを提案する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.851638021923875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to synchronise audio and video of a talking face
using deep neural network models. Existing works have trained networks on proxy
tasks such as cross-modal similarity learning, and then computed similarities
between audio and video frames using a sliding window approach. While these
methods demonstrate satisfactory performance, the networks are not trained
directly on the task. To this end, we propose an end-to-end trained network
that can directly predict the offset between an audio stream and the
corresponding video stream. The similarity matrix between the two modalities is
first computed from the features, then the inference of the offset can be
considered to be a pattern recognition problem where the matrix is considered
equivalent to an image. The feature extractor and the classifier are trained
jointly. We demonstrate that the proposed approach outperforms the previous
work by a large margin on LRS2 and LRS3 datasets.
- Abstract(参考訳): この研究の目的は、ディープニューラルネットワークモデルを使用して話し相手の音声と映像を同期させることである。
既存の作品では、クロスモーダル類似性学習などのプロキシタスクのネットワークを訓練し、スライディングウィンドウアプローチでオーディオとビデオフレームの類似性を計算している。
これらの手法は良好な性能を示すが、ネットワークはタスク上で直接訓練されない。
そこで本研究では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドのトレーニングネットワークを提案する。
2つのモダリティの間の類似性行列は、まず特徴から計算され、その後、オフセットの推論は、行列が画像と同値であると考えられるパターン認識問題と考えることができる。
特徴抽出器と分類器を共同で訓練する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning [19.730467023817123]
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-10-17T08:12:18Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。