論文の概要: Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors
- arxiv url: http://arxiv.org/abs/2210.07055v1
- Date: Thu, 13 Oct 2022 14:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:22:38.589946
- Title: Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors
- Title(参考訳): 空間と時間のスパース:訓練可能なセレクタによる視聴覚同期
- Authors: Vladimir Iashin and Weidi Xie and Esa Rahtu and Andrew Zisserman
- Abstract要約: 本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
- 参考スコア(独自算出の注目度): 103.21152156339484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this paper is audio-visual synchronisation of general videos
'in the wild'. For such videos, the events that may be harnessed for
synchronisation cues may be spatially small and may occur only infrequently
during a many seconds-long video clip, i.e. the synchronisation signal is
'sparse in space and time'. This contrasts with the case of synchronising
videos of talking heads, where audio-visual correspondence is dense in both
time and space.
We make four contributions: (i) in order to handle longer temporal sequences
required for sparse synchronisation signals, we design a multi-modal
transformer model that employs 'selectors' to distil the long audio and visual
streams into small sequences that are then used to predict the temporal offset
between streams. (ii) We identify artefacts that can arise from the compression
codecs used for audio and video and can be used by audio-visual models in
training to artificially solve the synchronisation task. (iii) We curate a
dataset with only sparse in time and space synchronisation signals; and (iv)
the effectiveness of the proposed model is shown on both dense and sparse
datasets quantitatively and qualitatively.
Project page: v-iashin.github.io/SparseSync
- Abstract(参考訳): 本研究の目的は,一般映像の「野生」音声・視覚同期である。
このようなビデオでは、同期の手がかりに利用されるイベントは、空間的に小さく、数秒間のビデオクリップの間にのみ発生する可能性がある。
これは、音声と視覚の対応が時間と空間の両方で密集している音声ヘッドの同期ビデオと対照的である。
4つの貢献をします
(i) スパース同期信号に必要な長い時間系列を処理するために,長い音声と視覚ストリームを小さなシーケンスに分割し,ストリーム間の時間的オフセットを予測するために使用する「セレクタ」を用いたマルチモーダルトランスフォーマを設計した。
(II) 音声・ビデオの圧縮コーデックから生じるアーティファクトを識別し, トレーニングにおいて音声・視覚モデルを用いて, 同期タスクを人工的に解くことができる。
(iii)時間と空間の同期信号のみでデータセットをキュレートする。
(4) モデルの有効性は, 密度と疎度の両方のデータセットで定量的に定性的に示される。
プロジェクトページ: v-iashin.github.io/SparseSync
関連論文リスト
- Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity [12.848371604063168]
本稿では,V2A生成モデルであるMaskVATを提案する。
提案手法は,高品質なオーディオ・ビジュアル特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,高い同期性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T01:49:59Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文 参考訳(メタデータ) (2023-03-01T13:35:35Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。