論文の概要: LSTM-LM with Long-Term History for First-Pass Decoding in Conversational
Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.11349v1
- Date: Wed, 21 Oct 2020 23:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:08:21.700340
- Title: LSTM-LM with Long-Term History for First-Pass Decoding in Conversational
Speech Recognition
- Title(参考訳): 会話音声認識における第1パス復号化のための長期履歴付きLSTM-LM
- Authors: Xie Chen, Sarangarajan Parthasarathy, William Gale, Shuangyu Chang,
Michael Zeng
- Abstract要約: LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースn-gram LMよりも大幅に性能が向上した。
最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
- 参考スコア(独自算出の注目度): 27.639919625398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LSTM language models (LSTM-LMs) have been proven to be powerful and yielded
significant performance improvements over count based n-gram LMs in modern
speech recognition systems. Due to its infinite history states and
computational load, most previous studies focus on applying LSTM-LMs in the
second-pass for rescoring purpose. Recent work shows that it is feasible and
computationally affordable to adopt the LSTM-LMs in the first-pass decoding
within a dynamic (or tree based) decoder framework. In this work, the LSTM-LM
is composed with a WFST decoder on-the-fly for the first-pass decoding.
Furthermore, motivated by the long-term history nature of LSTM-LMs, the use of
context beyond the current utterance is explored for the first-pass decoding in
conversational speech recognition. The context information is captured by the
hidden states of LSTM-LMs across utterance and can be used to guide the
first-pass search effectively. The experimental results in our internal meeting
transcription system show that significant performance improvements can be
obtained by incorporating the contextual information with LSTM-LMs in the
first-pass decoding, compared to applying the contextual information in the
second-pass rescoring.
- Abstract(参考訳): LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースのn-gram LMよりも大幅に性能が向上した。
その無限の履歴状態と計算負荷のため、これまでの研究はLSTM-LMを第2パスに適用することに集中していた。
最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
本研究では,LSTM-LMはWFSTデコーダをオンザフライで構成する。
さらに、LSTM-LMの長期的歴史特性を動機として、会話音声認識における第1パス復号化のために、現在の発話を超えた文脈の使用を検討する。
文脈情報は、発話間でLSTM-LMの隠れ状態によって捕捉され、ファーストパス探索を効果的に導くために使用できる。
その結果,第1パス復号法では,第2パス復号法では文脈情報を適用した場合と比較して,文脈情報をLSTM-LMに組み込むことで,大幅な性能向上が得られることがわかった。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models [6.313516199029267]
音声キャプション/分類実験を通じて、音声MLLMは、音声キャプションを生成する際に、LLMのテキストベースの推論を完全に活用できないことを示す。
また,LLMからオーディオエンコーダへの推論経路を分離するなど,聴覚情報とテキスト情報を別々に表現するMLLMが原因である可能性についても検討する。
論文 参考訳(メタデータ) (2024-06-07T03:55:00Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。
これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。
また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文 参考訳(メタデータ) (2024-02-07T07:39:27Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。
実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。
新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-07-31T08:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。