論文の概要: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
- arxiv url: http://arxiv.org/abs/2510.10329v1
- Date: Sat, 11 Oct 2025 20:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.8926
- Title: End-to-end Automatic Speech Recognition and Speech Translation: Integration of Speech Foundational Models and LLMs
- Title(参考訳): エンドツーエンドの自動音声認識と音声翻訳:音声基礎モデルとLLMの統合
- Authors: Nam Luu, Ondřej Bojar,
- Abstract要約: 音声翻訳(英: Speech Translation、ST)とは、ある言語からの音声信号を他の言語の対応するテキストに変換することを含む機械翻訳タスクである。
本稿では,事前学習した音声エンコーダとLarge Language Models(LLM)を併用して,音声認識(ASR)とSTの両方を同時に実行するためのエンドツーエンドアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech Translation (ST) is a machine translation task that involves converting speech signals from one language to the corresponding text in another language; this task has two different approaches, namely the traditional cascade and the more recent end-to-end. This paper explores a combined end-to-end architecture of pre-trained speech encoders and Large Language Models (LLMs) for performing both Automatic Speech Recognition (ASR) and ST simultaneously. Experiments with the English-to-German language pair show that our best model not only can achieve better translation results than SeamlessM4T, a large foundational end-to-end, multi-modal translation model, but can also match the performance of a cascaded system with Whisper and NLLB, with up to a score gain of 8% in $\text{COMET}^{\text{DA}}_{22}$ metric.
- Abstract(参考訳): 音声翻訳(ST)は、ある言語からの音声信号を他の言語で対応するテキストに変換することを含む機械翻訳タスクである。
本稿では,事前学習した音声エンコーダとLarge Language Models(LLM)を併用して,音声認識(ASR)とSTの両方を同時に実行するためのエンドツーエンドアーキテクチャについて検討する。
英語とドイツ語のペアを用いた実験により、我々の最良のモデルは、大規模なエンドツーエンドのマルチモーダル翻訳モデルであるSeamlessM4Tよりも優れた翻訳結果が得られるだけでなく、WhisperやNLLBとカスケードシステムの性能を一致させることができることが示され、最大8%のスコアが$\text{COMET}^{\text{DA}}_{22}$メトリックで得られる。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。