Fugu-MT 論文翻訳(概要): Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison

論文の概要: Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison

arxiv url: http://arxiv.org/abs/2501.02370v3
Date: Fri, 07 Feb 2025 20:12:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 12:26:32.483708
Title: Prepending or Cross-Attention for Speech-to-Text? An Empirical Comparison
Title（参考訳）: 音声からテキストへのプレプレッションとクロスアテンション : 実証的比較
Authors: Tsz Kin Lam, Marco Gaido, Sara Papi, Luisa Bentivogli, Barry Haddow,
Abstract要約: 本研究では,高密度機能プリペンディング(DFP)とクロスアテンションアーキテクチャの性能を比較した。 DFPは広く採用されているが,本研究の結果はDFPのクロスアテンションに対する優位性を示すものではない。
参考スコア（独自算出の注目度）: 27.44915531637358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Following the remarkable success of Large Language Models (LLMs) in NLP tasks, there is increasing interest in extending their capabilities to speech -- the most common form of communication. The most widespread approach to integrating speech into LLMs is dense feature prepending (DFP), which prepends the projected speech representations to the textual representations, allowing end-to-end training with a speech encoder. This raises questions about the need for a sophisticated speech encoder for DFP and how its performance compares with a standard encoder-decoder (i.e., cross-attention) architecture. We compare DFP and cross-attention under a variety of configurations, such as CTC compression, sequence-level knowledge distillation, on monolingual, bilingual, and multilingual models. To perform a controlled architectural comparison, we train all models from scratch rather than using large pretrained models and use comparable data and parameter settings, testing speech-to-text recognition (ASR) and translation (ST) on MuST-C v1.0 and CoVoST2 datasets. Despite the wide adoption of DFP, our results do not indicate a clear advantage of DFP over cross-attention.
Abstract（参考訳）: NLPタスクにおけるLarge Language Models(LLM)の顕著な成功に続いて、最も一般的なコミュニケーション形式である音声への機能拡張への関心が高まっている。 LLMに音声を統合する最も広く使われているアプローチは、予測された音声表現をテキスト表現にプリペイドし、音声エンコーダによるエンドツーエンドのトレーニングを可能にする、高機能プリペンディング(DFP)である。これにより、DFP用の洗練された音声エンコーダの必要性や、その性能が標準的なエンコーダ・デコーダ(すなわち、クロスアテンション)アーキテクチャと比較されるかという疑問が持ち上がる。 CTC圧縮やシーケンスレベルの知識蒸留,モノリンガルモデル,バイリンガルモデル,多言語モデルなど,さまざまな構成下でのDFPとクロスアテンションを比較した。制御されたアーキテクチャ比較を行うため、我々は、大きな事前訓練されたモデルではなく、全てのモデルをスクラッチからトレーニングし、同等のデータとパラメータ設定を使用し、MuST-C v1.0およびCoVoST2データセット上で音声テキスト認識(ASR)と翻訳(ST)をテストする。 DFPは広く採用されているが,本研究の結果はDFPのクロスアテンションに対する優位性を示すものではない。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。 TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文参考訳（メタデータ） (2025-06-01T09:27:55Z)
Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-08-30T17:29:25Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳（メタデータ） (2024-06-13T17:28:13Z)
Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文参考訳（メタデータ） (2023-07-23T09:04:13Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Bidirectional Representations for Low Resource Spoken Language Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-11-24T17:05:16Z)
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文参考訳（メタデータ） (2022-10-07T17:57:45Z)
M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文参考訳（メタデータ） (2022-07-03T04:26:53Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
RealTranS: End-to-End Simultaneous Speech Translation with Convolutional Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2021-06-09T06:35:46Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)
Dual-decoder Transformer for Joint Automatic Speech Recognition and Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文参考訳（メタデータ） (2020-11-02T04:59:50Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。