論文の概要: Unified Video-Language Pre-training with Synchronized Audio
- arxiv url: http://arxiv.org/abs/2405.07202v1
- Date: Sun, 12 May 2024 07:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 17:57:54.690249
- Title: Unified Video-Language Pre-training with Synchronized Audio
- Title(参考訳): 同期オーディオによる一元化ビデオ言語事前学習
- Authors: Shentong Mo, Haofan Wang, Huaxia Li, Xu Tang,
- Abstract要約: シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
- 参考スコア(独自算出の注目度): 21.607860535968356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-language pre-training is a typical and challenging problem that aims at learning visual and textual representations from large-scale data in a self-supervised way. Existing pre-training approaches either captured the correspondence of image-text pairs or utilized temporal ordering of frames. However, they do not explicitly explore the natural synchronization between audio and the other two modalities. In this work, we propose an enhanced framework for Video-Language pre-training with Synchronized Audio, termed as VLSA, that can learn tri-modal representations in a unified self-supervised transformer. Specifically, our VLSA jointly aggregates embeddings of local patches and global tokens for video, text, and audio. Furthermore, we utilize local-patch masked modeling to learn modality-aware features, and leverage global audio matching to capture audio-guided features for video and text. We conduct extensive experiments on retrieval across text, video, and audio. Our simple model pre-trained on only 0.9M data achieves improving results against state-of-the-art baselines. In addition, qualitative visualizations vividly showcase the superiority of our VLSA in learning discriminative visual-textual representations.
- Abstract(参考訳): ビデオ言語事前学習は,大規模データから視覚的およびテキスト的表現を自己指導的に学習することを目的とした,典型的で困難な問題である。
既存の事前学習アプローチは、画像とテキストのペアの対応を捉えるか、フレームの時間的順序付けを利用するかのいずれかである。
しかし、彼らは音声と他の2つのモード間の自然な同期を明示的に調べていない。
本稿では,VLSAと呼ばれる同期音声によるビデオ言語事前学習のための拡張フレームワークを提案する。
具体的には、VLSAは、ビデオ、テキスト、オーディオのローカルパッチとグローバルトークンの埋め込みを共同で集約します。
さらに,ローカル・パッチ・マスクド・モデリングを用いてモダリティを意識した特徴を学習し,グローバル・オーディオ・マッチングを利用して映像やテキストの音声誘導機能をキャプチャする。
テキスト,ビデオ,音声の検索について広範な実験を行った。
0.9Mデータのみを事前学習した簡単なモデルでは,最先端のベースラインに対する結果の改善が期待できる。
さらに、定性的可視化は、識別的視覚・テクスチャ表現の学習において、VLSAの優位性を鮮明に示している。
関連論文リスト
- Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。