論文の概要: GestSync: Determining who is speaking without a talking head
- arxiv url: http://arxiv.org/abs/2310.05304v1
- Date: Sun, 8 Oct 2023 22:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 08:41:20.723479
- Title: GestSync: Determining who is speaking without a talking head
- Title(参考訳): GestSync: しゃべる頭なしで話す人を決定する
- Authors: Sindhu B Hegde and Andrew Zisserman
- Abstract要約: 本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
- 参考スコア(独自算出の注目度): 67.75387744442727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we introduce a new synchronisation task, Gesture-Sync:
determining if a person's gestures are correlated with their speech or not. In
comparison to Lip-Sync, Gesture-Sync is far more challenging as there is a far
looser relationship between the voice and body movement than there is between
voice and lip motion. We introduce a dual-encoder model for this task, and
compare a number of input representations including RGB frames, keypoint
images, and keypoint vectors, assessing their performance and advantages. We
show that the model can be trained using self-supervised learning alone, and
evaluate its performance on the LRS3 dataset. Finally, we demonstrate
applications of Gesture-Sync for audio-visual synchronisation, and in
determining who is the speaker in a crowd, without seeing their faces. The
code, datasets and pre-trained models can be found at:
\url{https://www.robots.ox.ac.uk/~vgg/research/gestsync}.
- Abstract(参考訳): 本稿では,ジェスチャ・シンク(Gesture-Sync)という新たな同期タスクを導入する。
リップシンクと比較して、ジェスチャー同期は、声と唇の動きよりも声と体の動きの間にはるかにゆるやかな関係があるため、はるかに難しい。
本稿では,この課題に対してデュアルエンコーダモデルを導入し,rgbフレーム,キーポイント画像,キーポイントベクトルなどの入力表現を比較し,その性能とアドバンテージを評価する。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
最後に,視聴覚同期のためのジェスチャ同期の応用と,群集内の話者を顔を見ずに判断する応用例を示す。
url{https://www.robots.ox.ac.uk/~vgg/research/gestsync} で、コード、データセット、事前トレーニングされたモデルが確認できる。
関連論文リスト
- SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。
SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文 参考訳(メタデータ) (2025-02-16T12:14:17Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization [29.53063463863921]
我々は、フレームレベルのクロスモーダル監視に量子化オーディオを利用するエンドツーエンド学習フレームワークSyncVSRを提案する。
音響データと視覚表現を同期するプロジェクション層を統合することで、エンコーダは、非自己回帰的な方法でビデオシーケンスから離散的なオーディオトークンを生成することを学習する。
我々の経験的評価は、最先端の結果を達成するだけでなく、データ使用量を最大9倍に削減できることを示している。
論文 参考訳(メタデータ) (2024-06-18T03:14:22Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis [24.565073576385913]
ライフライクな話しの頭は、主題のアイデンティティ、唇の動き、表情、頭ポーズを同期的に調整する必要がある。
従来のGAN(Generative Adversarial Networks)は、一貫した顔認証を維持するのに苦労している。
音声ヘッド合成における主観的同一性, 同期性, リアリズムを効果的に維持する。
論文 参考訳(メタデータ) (2023-11-29T12:35:34Z) - On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文 参考訳(メタデータ) (2023-03-01T13:35:35Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices [4.167459103689587]
人間の顔と声を含むビデオにおける唇声の同期の問題に対処する。
我々のアプローチは、ビデオ中の唇の動きと声が同期しているかどうかを判断することに基づいている。
本稿では,複数のベースラインモデルより優れた音響-視覚間変換器モデルを提案する。
論文 参考訳(メタデータ) (2022-04-05T10:02:39Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。