Fugu-MT 論文翻訳(概要): LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition

論文の概要: LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition

arxiv url: http://arxiv.org/abs/2010.11349v1
Date: Wed, 21 Oct 2020 23:40:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 00:08:21.700340
Title: LSTM-LM with Long-Term History for First-Pass Decoding in Conversational Speech Recognition
Title（参考訳）: 会話音声認識における第1パス復号化のための長期履歴付きLSTM-LM
Authors: Xie Chen, Sarangarajan Parthasarathy, William Gale, Shuangyu Chang, Michael Zeng
Abstract要約: LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースn-gram LMよりも大幅に性能が向上した。最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。
参考スコア（独自算出の注目度）: 27.639919625398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LSTM language models (LSTM-LMs) have been proven to be powerful and yielded significant performance improvements over count based n-gram LMs in modern speech recognition systems. Due to its infinite history states and computational load, most previous studies focus on applying LSTM-LMs in the second-pass for rescoring purpose. Recent work shows that it is feasible and computationally affordable to adopt the LSTM-LMs in the first-pass decoding within a dynamic (or tree based) decoder framework. In this work, the LSTM-LM is composed with a WFST decoder on-the-fly for the first-pass decoding. Furthermore, motivated by the long-term history nature of LSTM-LMs, the use of context beyond the current utterance is explored for the first-pass decoding in conversational speech recognition. The context information is captured by the hidden states of LSTM-LMs across utterance and can be used to guide the first-pass search effectively. The experimental results in our internal meeting transcription system show that significant performance improvements can be obtained by incorporating the contextual information with LSTM-LMs in the first-pass decoding, compared to applying the contextual information in the second-pass rescoring.
Abstract（参考訳）: LSTM言語モデル(LSTM-LM)は強力であることが証明され、現代の音声認識システムにおいて、カウントベースのn-gram LMよりも大幅に性能が向上した。その無限の履歴状態と計算負荷のため、これまでの研究はLSTM-LMを第2パスに適用することに集中していた。最近の研究は、動的(またはツリーベース)デコーダフレームワークにおいて、最初のパスデコードでLSTM-LMを採用することは可能であり、計算に安価であることを示している。本研究では,LSTM-LMはWFSTデコーダをオンザフライで構成する。さらに、LSTM-LMの長期的歴史特性を動機として、会話音声認識における第1パス復号化のために、現在の発話を超えた文脈の使用を検討する。文脈情報は、発話間でLSTM-LMの隠れ状態によって捕捉され、ファーストパス探索を効果的に導くために使用できる。その結果,第1パス復号法では,第2パス復号法では文脈情報を適用した場合と比較して,文脈情報をLSTM-LMに組み込むことで,大幅な性能向上が得られることがわかった。

関連論文リスト

SALMONN-omni: A Standalone Speech LLM without Codec Injection for Full-duplex Conversation [17.56310064245171]
SALMON-N-omniは、トークン遷移バックボーンなしで動作する最初の単独のフルバイト音声LLMである。 LLMバックボーン内に新しい動的思考機構が備わっており、講演と聴取の間にモデルを学習することができる。 SALMON-N-Omniは、ターンテイキング、バックチャネルエコーキャンセル、コンテキスト依存バージェインなど、複雑な会話シナリオで強いパフォーマンスを示す。
論文参考訳（メタデータ） (2025-05-17T08:13:59Z)
LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors [22.845623101142483]
音声エンコーダと大言語モデル(LLM)を橋渡しする新しいパラダイムであるLegoSLMを提案する。好成績なUSMモデルとGemmaモデルを用いて,提案手法がASRおよび音声翻訳タスクにおいて良好な性能を示すことを示す。
論文参考訳（メタデータ） (2025-05-16T15:15:19Z)
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文参考訳（メタデータ） (2024-06-24T16:38:17Z)
What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models [6.313516199029267]
音声キャプション/分類実験を通じて、音声MLLMは、音声キャプションを生成する際に、LLMのテキストベースの推論を完全に活用できないことを示す。また,LLMからオーディオエンコーダへの推論経路を分離するなど,聴覚情報とテキスト情報を別々に表現するMLLMが原因である可能性についても検討する。
論文参考訳（メタデータ） (2024-06-07T03:55:00Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文参考訳（メタデータ） (2024-02-13T23:25:04Z)
TransLLaMa: LLM-based Simultaneous Translation System [18.27477980076409]
Decoderのみの大規模言語モデル(LLM)は,特別な"待機"トークンを生成することで,入力セグメンテーションを直接制御できることを示す。これにより、別個の政策の必要性が排除され、LLMは英語とドイツ語と英語とロシア語のSiMTタスクを実行できるようになる。また, GPT-4 などのクローズドソースモデルの評価を行い, 事前訓練をせずに SiMT タスクの実行を奨励する結果を示した。
論文参考訳（メタデータ） (2024-02-07T07:39:27Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文参考訳（メタデータ） (2023-09-19T11:10:50Z)
Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文参考訳（メタデータ） (2023-07-13T02:31:55Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)
Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文参考訳（メタデータ） (2020-07-31T08:38:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。