論文の概要: Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource
Parallel Data
- arxiv url: http://arxiv.org/abs/2204.04645v1
- Date: Sun, 10 Apr 2022 10:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 19:04:00.973890
- Title: Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource
Parallel Data
- Title(参考訳): 極低リソース並列データを用いたセルフ・スーパービジョンオーディオ・テキスト事前学習
- Authors: Yu Kang, Tianqiao Liu, Hang Li, Yang Hao, Wenbiao Ding
- Abstract要約: 音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。
しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。
本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
- 参考スコア(独自算出の注目度): 15.658471125219224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal pre-training for audio-and-text has recently been proved to be
effective and has significantly improved the performance of many downstream
speech understanding tasks. However, these state-of-the-art pre-training
audio-text models work well only when provided with large amount of parallel
audio-and-text data, which brings challenges on many languages that are rich in
unimodal corpora but scarce of parallel cross-modal corpus. In this paper, we
investigate whether it is possible to pre-train an audio-text multimodal model
with extremely low-resource parallel data and extra non-parallel unimodal data.
Our pre-training framework consists of the following components: (1)
Intra-modal Denoising Auto-Encoding (IDAE), which is able to reconstruct input
text (audio) representations from a noisy version of itself. (2) Cross-modal
Denoising Auto-Encoding (CDAE), which is pre-trained to reconstruct the input
text (audio), given both a noisy version of the input text (audio) and the
corresponding translated noisy audio features (text embeddings). (3) Iterative
Denoising Process (IDP), which iteratively translates raw audio (text) and the
corresponding text embeddings (audio features) translated from previous
iteration into the new less-noisy text embeddings (audio features). We adapt a
dual cross-modal Transformer as our backbone model which consists of two
unimodal encoders for IDAE and two cross-modal encoders for CDAE and IDP. Our
method achieves comparable performance on multiple downstream speech
understanding tasks compared with the model pre-trained on fully parallel data,
demonstrating the great potential of the proposed method. Our code is available
at: \url{https://github.com/KarlYuKang/Low-Resource-Multimodal-Pre-training}.
- Abstract(参考訳): 近年,音声とテキストのマルチモーダル事前学習が有効であることが証明され,下流音声理解タスクの性能が大幅に向上した。
しかし、これらの最先端の事前学習されたオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ機能するので、ユニモーダルコーパスに富むが並列クロスモーダルコーパスに乏しい多くの言語で問題が発生する。
本稿では,低リソースの並列データと余分な非並列ユニモーダルデータを用いた音声テキストマルチモーダルモデルの事前学習が可能かどうかを検討する。
プリトレーニングフレームワークは,(1)モーダル内デノージング自動エンコーディング (idae) であり,ノイズの多いバージョンから入力テキスト (audio) 表現を再構築できる。
2)入力テキスト(オーディオ)のノイズバージョンと対応する変換された雑音音声特徴(テキスト埋め込み)の両方を考慮し、入力テキスト(オーディオ)を再構築するために予め訓練されたクロスモーダル・デノイジング・オートエンコーディング(cdae)。
(3) 原音(テキスト)とそれに対応するテキストの埋め込み(音声特徴)を反復的に翻訳する反復Denoising Process (IDP) は,前回のイテレーションから新しいノイズの少ないテキスト埋め込み(音声特徴)に変換される。
我々は,CDAE と IDP の2つのユニモーダルエンコーダと CDAE と IDP のクロスモーダルエンコーダからなるバックボーンモデルとして,デュアルモーダルトランスを適応させる。
提案手法は,完全並列データ上で事前学習したモデルと比較して,複数のダウンストリーム音声理解タスクにおいて同等の性能を達成し,提案手法の大きな可能性を示す。
私たちのコードは、 \url{https://github.com/karlyukang/low-resource-multimodal-pre-training}で利用可能です。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation [43.35578187209748]
Foley AudioはAIGC(AI- generated Content)のランドスケープにおいて大きな課題に直面している。
現在のテクスト・トゥ・オーディオ技術は、詳細で音響的に関係のあるテキスト記述に依存している。
MINT(Multi-modal Image and Narrative Text Dubbing dataset)を導入する。
MINTは、文学的なストーリーオーディオブックのダビング、イメージ/サイレントビデオダビングといったメインストリームのダビングタスクを強化するように設計されている。
論文 参考訳(メタデータ) (2024-06-15T10:47:36Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - CTAL: Pre-training Cross-modal Transformer for Audio-and-Language
Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。
感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文 参考訳(メタデータ) (2021-09-01T04:18:19Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。