論文の概要: Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison
- arxiv url: http://arxiv.org/abs/2501.02370v3
- Date: Fri, 07 Feb 2025 20:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:24:27.007041
- Title: Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison
- Title(参考訳): 音声からテキストへのプレプレッションとクロスアテンション : 実証的比較
- Authors: Tsz Kin Lam, Marco Gaido, Sara Papi, Luisa Bentivogli, Barry Haddow,
- Abstract要約: 本研究では,高密度機能プリペンディング(DFP)とクロスアテンションアーキテクチャの性能を比較した。
DFPは広く採用されているが,本研究の結果はDFPのクロスアテンションに対する優位性を示すものではない。
- 参考スコア(独自算出の注目度): 27.44915531637358
- License:
- Abstract: Following the remarkable success of Large Language Models (LLMs) in NLP tasks, there is increasing interest in extending their capabilities to speech -- the most common form of communication. The most widespread approach to integrating speech into LLMs is dense feature prepending (DFP), which prepends the projected speech representations to the textual representations, allowing end-to-end training with a speech encoder. This raises questions about the need for a sophisticated speech encoder for DFP and how its performance compares with a standard encoder-decoder (i.e., cross-attention) architecture. We compare DFP and cross-attention under a variety of configurations, such as CTC compression, sequence-level knowledge distillation, on monolingual, bilingual, and multilingual models. To perform a controlled architectural comparison, we train all models from scratch rather than using large pretrained models and use comparable data and parameter settings, testing speech-to-text recognition (ASR) and translation (ST) on MuST-C v1.0 and CoVoST2 datasets. Despite the wide adoption of DFP, our results do not indicate a clear advantage of DFP over cross-attention.
- Abstract(参考訳): NLPタスクにおけるLarge Language Models(LLM)の顕著な成功に続いて、最も一般的なコミュニケーション形式である音声への機能拡張への関心が高まっている。
LLMに音声を統合する最も広く使われているアプローチは、予測された音声表現をテキスト表現にプリペイドし、音声エンコーダによるエンドツーエンドのトレーニングを可能にする、高機能プリペンディング(DFP)である。
これにより、DFP用の洗練された音声エンコーダの必要性や、その性能が標準的なエンコーダ・デコーダ(すなわち、クロスアテンション)アーキテクチャと比較されるかという疑問が持ち上がる。
CTC圧縮やシーケンスレベルの知識蒸留,モノリンガルモデル,バイリンガルモデル,多言語モデルなど,さまざまな構成下でのDFPとクロスアテンションを比較した。
制御されたアーキテクチャ比較を行うため、我々は、大きな事前訓練されたモデルではなく、全てのモデルをスクラッチからトレーニングし、同等のデータとパラメータ設定を使用し、MuST-C v1.0およびCoVoST2データセット上で音声テキスト認識(ASR)と翻訳(ST)をテストする。
DFPは広く採用されているが,本研究の結果はDFPのクロスアテンションに対する優位性を示すものではない。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。