論文の概要: Accommodating Audio Modality in CLIP for Multimodal Processing
- arxiv url: http://arxiv.org/abs/2303.06591v1
- Date: Sun, 12 Mar 2023 06:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 17:53:48.380639
- Title: Accommodating Audio Modality in CLIP for Multimodal Processing
- Title(参考訳): マルチモーダル処理のためのCLIPにおけるオーディオモダリティの調整
- Authors: Ludan Ruan, Anwen Hu, Yuqing Song, Liang Zhang, Sipeng Zheng, Qin Jin
- Abstract要約: 視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
- 参考スコア(独自算出の注目度): 48.83906067348211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal processing has attracted much attention lately especially with the
success of pre-training. However, the exploration has mainly focused on
vision-language pre-training, as introducing more modalities can greatly
complicate model design and optimization. In this paper, we extend the
stateof-the-art Vision-Language model CLIP to accommodate the audio modality
for Vision-Language-Audio multimodal processing. Specifically, we apply
inter-modal and intra-modal contrastive learning to explore the correlation
between audio and other modalities in addition to the inner characteristics of
the audio modality. Moreover, we further design an audio type token to
dynamically learn different audio information type for different scenarios, as
both verbal and nonverbal heterogeneous information is conveyed in general
audios. Our proposed CLIP4VLA model is validated in different downstream tasks
including video retrieval and video captioning, and achieves the
state-of-the-art performance on the benchmark datasets of MSR-VTT, VATEX, and
Audiocaps.
- Abstract(参考訳): マルチモーダル処理は、特にプレトレーニングの成功により、近年多くの注目を集めている。
しかし、この探索は主に視覚言語による事前学習に焦点を当てており、モデル設計と最適化を大幅に複雑にすることができる。
本稿では,最先端の視覚言語モデルクリップを拡張し,視覚言語音声マルチモーダル処理における音声モダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、音響モダリティの内部特性に加えて、オーディオと他のモダリティの相関について検討する。
さらに,言語情報と非言語情報の両方が一般的な音声で伝達されるため,異なるシナリオの異なる音声情報型を動的に学習する音声型トークンを設計する。
提案手法は,MSR-VTT,VATEX,Audiocapsのベンチマークデータセットを用いて,映像検索や動画キャプションなどの下流タスクで検証し,最先端のパフォーマンスを実現する。
関連論文リスト
- Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。
我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文 参考訳(メタデータ) (2024-11-11T11:12:23Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - A multimodal dynamical variational autoencoder for audiovisual speech
representation learning [23.748108659645844]
MDVAE (Multimodal and dynamical VAE) は、教師なし音声・視覚的音声表現学習に適用される。
実験には、音声視覚音声の操作、音声視覚の表情の認知、音声視覚の感情認識などが含まれる。
論文 参考訳(メタデータ) (2023-05-05T14:37:26Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。