Fugu-MT 論文翻訳(概要): CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations

論文の概要: CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations

arxiv url: http://arxiv.org/abs/2109.00181v1
Date: Wed, 1 Sep 2021 04:18:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-02 14:15:08.973273
Title: CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations
Title（参考訳）: CTAL: 音声・言語表現のための事前学習型クロスモーダルトランス
Authors: Hang Li, Yu Kang, Tianqiao Liu, Wenbiao Ding, Zitao Liu
Abstract要約: 音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
参考スコア（独自算出の注目度）: 20.239063010740853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing audio-language task-specific predictive approaches focus on building complicated late-fusion mechanisms. However, these models are facing challenges of overfitting with limited labels and low model generalization abilities. In this paper, we present a Cross-modal Transformer for Audio-and-Language, i.e., CTAL, which aims to learn the intra-modality and inter-modality connections between audio and language through two proxy tasks on a large amount of audio-and-language pairs: masked language modeling and masked cross-modal acoustic modeling. After fine-tuning our pre-trained model on multiple downstream audio-and-language tasks, we observe significant improvements across various tasks, such as, emotion classification, sentiment analysis, and speaker verification. On this basis, we further propose a specially-designed fusion mechanism that can be used in fine-tuning phase, which allows our pre-trained model to achieve better performance. Lastly, we demonstrate detailed ablation studies to prove that both our novel cross-modality fusion component and audio-language pre-training methods significantly contribute to the promising results.
Abstract（参考訳）: 既存の音声言語タスク固有の予測手法は複雑な遅延拡散機構の構築に焦点を当てている。しかし、これらのモデルは限定ラベルと低モデル一般化能力で過剰に適合する課題に直面している。本稿では,多人数の音声・言語対上での2つのプロキシタスク(マスク付き言語モデリングとマスク付きクロスモーダル音響モデリング)を通して,音声・言語間のモダリティ内およびモダリティ間接続を学習することを目的としたクロスモーダルトランスフォーマを提案する。複数のダウンストリーム音声・言語タスクで事前学習したモデルを微調整した後、感情分類、感情分析、話者検証など、様々なタスクで大幅な改善が見られた。そこで本研究では, 微調整フェーズで使用できる特別に設計された核融合機構を提案する。最後に,新しいクロスモダリティ融合成分と音声言語事前学習法の両方が有望な結果に寄与することを示すため,詳細なアブレーション研究を行った。

関連論文リスト

Language-based Audio Retrieval with Co-Attention Networks [22.155383794829977]
本稿では,言語に基づく音声検索のための新しいフレームワークを提案する。本稿では,テキストと音声のセマンティックアライメントを改良するために,コアテンションモジュールを積み重ねたり繰り返したりする,カスケード型コアテンションアーキテクチャを提案する。 2つの公開データセットで行った実験により,提案手法は最先端手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-12-30T12:49:55Z)
Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization [25.213694510527436]
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存している。本稿では,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する新しいマルチモーダル手法を提案する。我々の手法は、最先端の話者ダイアリゼーション法より一貫して優れている。
論文参考訳（メタデータ） (2024-08-22T03:34:03Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。 C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文参考訳（メタデータ） (2024-05-25T09:10:12Z)
Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文参考訳（メタデータ） (2023-09-15T09:03:14Z)
Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文参考訳（メタデータ） (2023-08-22T15:59:06Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities [39.07096632751864]
SpeechGPTは、固有のクロスモーダルな会話能力を持つ大きな言語モデルである。我々は、モダリティ適応事前訓練、クロスモーダル命令微調整、チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用する。
論文参考訳（メタデータ） (2023-05-18T14:23:25Z)
Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文参考訳（メタデータ） (2023-03-12T06:57:01Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Look\&Listen: Multi-Modal Correlation Learning for Active Speaker Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文参考訳（メタデータ） (2022-03-04T09:53:19Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。