Fugu-MT 論文翻訳(概要): Synchformer: Efficient Synchronization from Sparse Cues

論文の概要: Synchformer: Efficient Synchronization from Sparse Cues

arxiv url: http://arxiv.org/abs/2401.16423v1
Date: Mon, 29 Jan 2024 18:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 13:31:21.591085
Title: Synchformer: Efficient Synchronization from Sparse Cues
Title（参考訳）: synchformer:スパースキューからの効率的な同期
Authors: Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman
Abstract要約: コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
参考スコア（独自算出の注目度）: 100.89656994681934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Our objective is audio-visual synchronization with a focus on 'in-the-wild' videos, such as those on YouTube, where synchronization cues can be sparse. Our contributions include a novel audio-visual synchronization model, and training that decouples feature extraction from synchronization modelling through multi-modal segment-level contrastive pre-training. This approach achieves state-of-the-art performance in both dense and sparse settings. We also extend synchronization model training to AudioSet a million-scale 'in-the-wild' dataset, investigate evidence attribution techniques for interpretability, and explore a new capability for synchronization models: audio-visual synchronizability.
Abstract（参考訳）: 私たちのゴールは、YouTubeなど、同期の容易さを損なうような 'in-the-wild' ビデオに焦点を当てた、オーディオ-視覚同期です。コントリビューションには、新しい音声-視覚同期モデル、マルチモーダルセグメントレベルのコントラスト事前学習による同期モデルから特徴抽出を分離するトレーニングが含まれる。このアプローチは、密度とスパース設定の両方で最先端の性能を実現する。また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ視覚同期性について検討する。

関連論文リスト

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文参考訳（メタデータ） (2025-03-30T09:40:42Z)
UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。 UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-03-20T17:16:03Z)
SyncDiff: Diffusion-based Talking Head Synthesis with Bottlenecked Temporal Visual Prior for Improved Synchronization [32.220603714163026]
トーキングヘッド合成(トーキングヘッドシンセシス)は、与えられた音声トラックと一致する顔の動きを再構成する。近年の研究では, この課題に対して, GANベースおよび拡散ベースモデルによりSOTA(State-of-the-art)性能が達成されている。本稿では,情報ボトルネックとAVHuBERTから抽出した顔インフォーマティブ音声特徴を有する時間的ポーズフレームを用いて,拡散モデルを改善するための簡易かつ効果的なSyncDiffを提案する。
論文参考訳（メタデータ） (2025-03-17T16:58:53Z)
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文参考訳（メタデータ） (2024-08-06T16:31:45Z)
GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。 Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文参考訳（メタデータ） (2023-10-08T22:48:30Z)
On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文参考訳（メタデータ） (2023-03-01T13:35:35Z)
Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文参考訳（メタデータ） (2022-10-13T14:25:37Z)
Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文参考訳（メタデータ） (2021-12-08T17:50:26Z)
Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Temporal Synchronicity [12.995632804090198]
CrissCrossは、音声視覚表現を学習するための自己教師型フレームワークである。音声と視覚の時間的同期を緩和することにより、ネットワークは強い時間不変表現を学習することを示す。
論文参考訳（メタデータ） (2021-11-09T20:24:19Z)
FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos [0.0]
本稿では,ビデオ入力の時間的視覚情報を用いて,クラス条件付き生成対向ネットワークを案内する新しいタスクを提案する。提案したFoleyGANモデルは、視覚的に整列したリアルなサウンドトラックを生成するために、視覚イベントのアクションシーケンスを条件付けることができる。
論文参考訳（メタデータ） (2021-07-20T04:59:26Z)
Single-Frame based Deep View Synchronization for Unsynchronized Multi-Camera Surveillance [56.964614522968226]
マルチカメラ監視はシーンの理解とモデリングにおいて活発な研究課題となっている。通常、これらのマルチカメラベースのタスクのモデルを設計する際に、カメラはすべて時間的に同期していると仮定される。我々のビュー同期モデルは、非同期設定下で異なるDNNベースのマルチカメラビジョンタスクに適用される。
論文参考訳（メタデータ） (2020-07-08T04:39:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。