論文の概要: ModEFormer: Modality-Preserving Embedding for Audio-Video
Synchronization using Transformers
- arxiv url: http://arxiv.org/abs/2303.11551v1
- Date: Tue, 21 Mar 2023 02:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:48:03.194547
- Title: ModEFormer: Modality-Preserving Embedding for Audio-Video
Synchronization using Transformers
- Title(参考訳): ModEFormer:トランスフォーマーを用いたオーディオビデオ同期のためのモード保存埋め込み
- Authors: Akash Gupta, Rohun Tripathi, Wondong Jang
- Abstract要約: 音声/ビデオ同期の欠如は、テレビ放送やビデオ会議においてよくある問題である。
モータリティ特化変換器を用いて音声とビデオの埋め込みを独立に抽出するModEFormerを提案する。
- 参考スコア(独自算出の注目度): 10.986687403148178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lack of audio-video synchronization is a common problem during television
broadcasts and video conferencing, leading to an unsatisfactory viewing
experience. A widely accepted paradigm is to create an error detection
mechanism that identifies the cases when audio is leading or lagging. We
propose ModEFormer, which independently extracts audio and video embeddings
using modality-specific transformers. Different from the other
transformer-based approaches, ModEFormer preserves the modality of the input
streams which allows us to use a larger batch size with more negative audio
samples for contrastive learning. Further, we propose a trade-off between the
number of negative samples and number of unique samples in a batch to
significantly exceed the performance of previous methods. Experimental results
show that ModEFormer achieves state-of-the-art performance, 94.5% for LRS2 and
90.9% for LRS3. Finally, we demonstrate how ModEFormer can be used for offset
detection for test clips.
- Abstract(参考訳): オーディオビデオ同期の欠如は、テレビ放送やビデオ会議において一般的な問題であり、不満足な視聴体験をもたらす。
広く受け入れられているパラダイムは、オーディオがリードまたはラグしているケースを特定するエラー検出メカニズムを作成することである。
モータリティ特化変換器を用いて音声とビデオの埋め込みを独立に抽出するModEFormerを提案する。
他のトランスフォーマティブベースのアプローチとは異なり、modeformerは入力ストリームのモダリティを保持します。
さらに, バッチ内の負のサンプル数と一意のサンプル数とのトレードオフを提案し, 従来手法の性能を大幅に上回ることを示す。
実験の結果、ModEFormerは最先端のパフォーマンス、LSS2は94.5%、RS3は90.9%を達成した。
最後に、テストクリップのオフセット検出にModEFormerをどのように使用できるかを示す。
関連論文リスト
- AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation [33.315479764894086]
AV-DiTは,新規かつ効率的な音声・視覚拡散変換器である。
画像のみのデータに基づいて事前訓練された共有DiTバックボーンは、オーディオおよびビデオの生成を容易にする。
AIST++とLandscapeデータセットの実験は、AV-DiTが関節型オーディオ視覚生成において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-06-11T20:05:58Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Point Cloud Audio Processing [18.88427891844357]
特徴空間における点の集合として扱うことにより、音声信号を処理する新しい方法を紹介します。
これらの手法がより小さなモデルとなり、訓練されたモデルの性能に対して最小限の効果で入力表現を著しくサブサンプル化できるのを観察する。
論文 参考訳(メタデータ) (2021-05-06T07:04:59Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。