Fugu-MT 論文翻訳(概要): WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

論文の概要: WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words

arxiv url: http://arxiv.org/abs/2312.02931v2
Date: Thu, 7 Dec 2023 00:37:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 11:19:04.154347
Title: WhisBERT: Multimodal Text-Audio Language Modeling on 100M Words
Title（参考訳）: WhisBERT: 1億ワードのマルチモーダルテキストオーディオ言語モデリング
Authors: Lukas Wolf, Greta Tuckute, Klemen Kotar, Eghbal Hosseini, Tamar Regev, Ethan Wilcox, Alex Warstadt
Abstract要約: FLAVAのテキストイメージアプローチにインスパイアされたWhisbertを紹介する。テキストのみと音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較した。 Whisbertはマルチモーダル・マスクド・モデリングでうまく機能するが、その複雑な目的を最適化するのに苦労している。
参考スコア（独自算出の注目度）: 14.862738401817309
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training on multiple modalities of input can augment the capabilities of a language model. Here, we ask whether such a training regime can improve the quality and efficiency of these systems as well. We focus on text--audio and introduce Whisbert, which is inspired by the text--image approach of FLAVA (Singh et al., 2022). In accordance with Babylm guidelines (Warstadt et al., 2023), we pretrain Whisbert on a dataset comprising only 100 million words plus their corresponding speech from the word-aligned version of the People's Speech dataset (Galvez et al., 2021). To assess the impact of multimodality, we compare versions of the model that are trained on text only and on both audio and text simultaneously. We find that while Whisbert is able to perform well on multimodal masked modeling and surpasses the Babylm baselines in most benchmark tasks, it struggles to optimize its complex objective and outperform its text-only Whisbert baseline.
Abstract（参考訳）: 入力の複数のモダリティのトレーニングは、言語モデルの能力を高めることができる。ここでは,このような訓練制度が,これらのシステムの品質と効率を向上できるかどうかを問う。 FLAVA(Singh et al., 2022)のテキストイメージアプローチに触発されたWhisbertを紹介する。 babylmのガイドライン(warstadt et al., 2023)に従って、私たちはウィスバートを、人々の発話データセット(galvez et al., 2021)のワードアライメントバージョンから、わずか1億語と対応する音声からなるデータセットに事前訓練します。マルチモダリティの影響を評価するために,テキストのみと音声とテキストの両方で同時にトレーニングされたモデルのバージョンを比較する。我々は、Whisbertがマルチモーダルマスクモデルでうまく機能し、ほとんどのベンチマークタスクにおいてBabylmベースラインを上回りながら、その複雑な目的を最適化し、テキストのみのWhisbertベースラインを上回ります。

関連論文リスト

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion [42.60008616386837]
音声誘導機械翻訳(SMT)フレームワークは、音声とテキストを融合入力としてMLLMに統合し、翻訳品質を向上させる。このフレームワークのコアコンポーネントは、合成音声を生成するためのテキスト音声モデルと、合成音声サンプルを分類可能なMLLMである。
論文参考訳（メタデータ） (2026-02-25T07:19:34Z)
MahaTTS: A Unified Framework for Multilingual Text-to-Speech Synthesis [0.0]
MahaTTS-v2は多言語対応の多言語テキスト音声合成システムである。提案手法では,意味抽出にWav2Vec2.0トークン,テキストからセマンティック・モデリングにLanguage Model(LM)を利用する。
論文参考訳（メタデータ） (2025-08-05T20:49:04Z)
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文参考訳（メタデータ） (2024-12-06T16:06:08Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。 We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文参考訳（メタデータ） (2024-06-30T20:41:02Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (2023-08-22T17:44:18Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-02T07:47:18Z)
Multilingual Speech Translation with Unified Transformer: Huawei Noah's Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文参考訳（メタデータ） (2021-06-01T02:50:49Z)
Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文参考訳（メタデータ） (2020-10-27T14:29:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。