Fugu-MT 論文翻訳(概要): End-to-End Speech Recognition Contextualization with Large Language Models

論文の概要: End-to-End Speech Recognition Contextualization with Large Language Models

arxiv url: http://arxiv.org/abs/2309.10917v1
Date: Tue, 19 Sep 2023 20:28:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-21 13:26:03.635304
Title: End-to-End Speech Recognition Contextualization with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたエンドツーエンド音声認識コンテキスト化
Authors: Egor Lakomkin, Chunyang Wu, Yassir Fathullah, Ozlem Kalinli, Michael L. Seltzer, Christian Fuegen
Abstract要約: 本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
参考スコア（独自算出の注目度）: 25.198480789044346
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Large Language Models (LLMs) have garnered significant attention from the research community due to their exceptional performance and generalization capabilities. In this paper, we introduce a novel method for contextualizing speech recognition models incorporating LLMs. Our approach casts speech recognition as a mixed-modal language modeling task based on a pretrained LLM. We provide audio features, along with optional text tokens for context, to train the system to complete transcriptions in a decoder-only fashion. As a result, the system is implicitly incentivized to learn how to leverage unstructured contextual information during training. Our empirical results demonstrate a significant improvement in performance, with a 6% WER reduction when additional textual context is provided. Moreover, we find that our method performs competitively and improve by 7.5% WER overall and 17% WER on rare words against a baseline contextualized RNN-T system that has been trained on more than twenty five times larger speech dataset. Overall, we demonstrate that by only adding a handful number of trainable parameters via adapters, we can unlock contextualized speech recognition capability for the pretrained LLM while keeping the same text-only input functionality.
Abstract（参考訳）: 近年,Large Language Models (LLMs) は,その優れた性能と一般化能力から,研究コミュニティから大きな注目を集めている。本稿では,LLMを取り入れた音声認識モデルのコンテキスト化手法を提案する。本手法では,事前学習したllmに基づく混合モーダル言語モデリングタスクとして音声認識を行う。我々は、音声機能と文脈の任意のテキストトークンを提供し、デコーダのみの方法でシステムの書き起こしを訓練する。結果としてシステムは、トレーニング中に非構造化コンテキスト情報を活用する方法を学ぶために暗黙的にインセンティブを与えます。実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。さらに,本手法は,20倍以上の音声データセットをトレーニングしたベースライン文脈化RNN-Tシステムに対して,レアワードに対して7.5%のWER,17%のWERで競争力と改善を行う。全体としては、アダプタ経由で少数のトレーニング可能なパラメータを追加するだけで、同じテキストのみの入力機能を維持しながら、事前トレーニングされたllmのコンテクスト化音声認識機能をアンロックできることを実証する。

関連論文リスト

Revisiting Audio-language Pretraining for Learning General-purpose Audio Representation [30.42124709340273]
我々は,大規模音声テキストコーパスの制限,キャプションの多様性の不足,系統的な探索と評価の欠如の3つの主要な障壁を同定した。以上の結果から,音声による事前学習が,競合的かつ伝達可能な表現をもたらすことが示された。これらの知見は,汎用音声表現への有効な経路として,音声事前学習を確立した。
論文参考訳（メタデータ） (2025-11-20T19:17:35Z)
TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models [27.013776992438086]
SICL(TICL)のためのテキスト埋め込みKNNを提案する。提案手法により, 最大84.7%のWER削減率でゼロショット性能を超えることができる。
論文参考訳（メタデータ） (2025-09-16T17:07:23Z)
ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。 TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文参考訳（メタデータ） (2025-06-01T09:27:55Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文参考訳（メタデータ） (2024-09-25T06:17:23Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文参考訳（メタデータ） (2024-07-12T12:16:14Z)
An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-06-14T11:53:14Z)
Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。視覚音声単位を用いた新しい学習手法を提案する。我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2024-01-18T08:46:02Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文参考訳（メタデータ） (2022-11-21T09:10:10Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文参考訳（メタデータ） (2020-10-27T14:29:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。