論文の概要: WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words
- arxiv url: http://arxiv.org/abs/2312.02931v2
- Date: Thu, 7 Dec 2023 00:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 11:19:04.154347
- Title: WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words
- Title(参考訳): WhisBERT: 1億ワードのマルチモーダルテキストオーディオ言語モデリング
- Authors: Lukas Wolf, Greta Tuckute, Klemen Kotar, Eghbal Hosseini, Tamar Regev,
Ethan Wilcox, Alex Warstadt
- Abstract要約: FLAVAのテキストイメージアプローチにインスパイアされたWhisbertを紹介する。
テキストのみと音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較した。
Whisbertはマルチモーダル・マスクド・モデリングでうまく機能するが、その複雑な目的を最適化するのに苦労している。
- 参考スコア(独自算出の注目度): 14.862738401817309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training on multiple modalities of input can augment the capabilities of a
language model. Here, we ask whether such a training regime can improve the
quality and efficiency of these systems as well. We focus on text--audio and
introduce Whisbert, which is inspired by the text--image approach of FLAVA
(Singh et al., 2022). In accordance with Babylm guidelines (Warstadt et al.,
2023), we pretrain Whisbert on a dataset comprising only 100 million words plus
their corresponding speech from the word-aligned version of the People's Speech
dataset (Galvez et al., 2021). To assess the impact of multimodality, we
compare versions of the model that are trained on text only and on both audio
and text simultaneously. We find that while Whisbert is able to perform well on
multimodal masked modeling and surpasses the Babylm baselines in most benchmark
tasks, it struggles to optimize its complex objective and outperform its
text-only Whisbert baseline.
- Abstract(参考訳): 入力の複数のモダリティのトレーニングは、言語モデルの能力を高めることができる。
ここでは,このような訓練制度が,これらのシステムの品質と効率を向上できるかどうかを問う。
FLAVA(Singh et al., 2022)のテキストイメージアプローチに触発されたWhisbertを紹介する。
babylmのガイドライン(warstadt et al., 2023)に従って、私たちはウィスバートを、人々の発話データセット(galvez et al., 2021)のワードアライメントバージョンから、わずか1億語と対応する音声からなるデータセットに事前訓練します。
マルチモダリティの影響を評価するために,テキストのみと音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較する。
我々は、Whisbertがマルチモーダルマスクモデルでうまく機能し、ほとんどのベンチマークタスクにおいてBabylmベースラインを上回りながら、その複雑な目的を最適化し、テキストのみのWhisbertベースラインを上回ります。
関連論文リスト
- Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。
我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文 参考訳(メタデータ) (2020-10-27T14:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。