論文の概要: FLAP: Fast Language-Audio Pre-training
- arxiv url: http://arxiv.org/abs/2311.01615v1
- Date: Thu, 2 Nov 2023 21:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:50:06.721343
- Title: FLAP: Fast Language-Audio Pre-training
- Title(参考訳): FLAP: 高速言語監査事前トレーニング
- Authors: Ching-Feng Yeh, Po-Yao Huang, Vasu Sharma, Shang-Wen Li and Gargi Gosh
- Abstract要約: 音声と言語表現を効率的に学習する自己教師型アプローチであるFast Language-Audio Pre-Training(FLAP)を提案する。
効率性のために、FLAPは音声スペクトログラムトークンをランダムにドロップし、残りのトークンのみをセルフスーパービジョンにフォーカスする。
FLAPは、ペア化されたオーディオとテキストの表現を共有潜在空間で整列させることを学ぶ。
- 参考スコア(独自算出の注目度): 16.46254370386555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Fast Language-Audio Pre-training (FLAP), a self-supervised
approach that efficiently and effectively learns aligned audio and language
representations through masking, contrastive learning and reconstruction. For
efficiency, FLAP randomly drops audio spectrogram tokens, focusing solely on
the remaining ones for self-supervision. Through inter-modal contrastive
learning, FLAP learns to align paired audio and text representations in a
shared latent space. Notably, FLAP leverages multiple augmented views via
masking for inter-modal contrast and learns to reconstruct the masked portion
of audio tokens. Moreover, FLAP leverages large language models (LLMs) to
augment the text inputs, contributing to improved performance. These approaches
lead to more robust and informative audio-text representations, enabling FLAP
to achieve state-of-the-art (SoTA) performance on audio-text retrieval tasks on
AudioCaps (achieving 53.0% R@1) and Clotho (achieving 25.5% R@1).
- Abstract(参考訳): 我々は,マスキング,コントラスト学習,再構築を通じて協調した音声および言語表現を効果的かつ効果的に学習する自己教師型アプローチであるFast Language-Audio Pre-training (FLAP)を提案する。
効率性のために、FLAPは音声スペクトログラムトークンをランダムにドロップし、残りのトークンのみをセルフスーパービジョンにフォーカスする。
モーダル間のコントラスト学習を通じて、flapはペアオーディオとテキストの表現を共有潜在空間で調整することを学ぶ。
特にFLAPは、モーダルコントラストのマスキングによって複数の拡張ビューを活用し、音声トークンのマスキング部分の再構築を学ぶ。
さらに、FLAPは大きな言語モデル(LLM)を活用してテキスト入力を強化し、パフォーマンスの向上に貢献している。
これらのアプローチにより、FLAPはAudioCaps(53.0% R@1)とCloso(25.5% R@1)のオーディオテキスト検索タスクにおいて、より堅牢で情報的なオーディオテキスト表現を実現することができる。
関連論文リスト
- XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and
Dialogue Abilities [39.228201276729266]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本研究では,(1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - Weakly-supervised Automated Audio Captioning via text only training [1.504795651143257]
本稿では,テキストデータと事前学習されたCLAPモデルのみを前提として,AACモデルをトレーニングするための弱い教師付きアプローチを提案する。
提案手法をClosoとAudioCapsのデータセット上で評価し,完全に教師されたアプローチと比較して,最大83%の相対的な性能を実現する能力を示した。
論文 参考訳(メタデータ) (2023-09-21T16:40:46Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。