論文の概要: A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR
- arxiv url: http://arxiv.org/abs/2406.17272v1
- Date: Tue, 25 Jun 2024 04:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:41:13.207228
- Title: A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR
- Title(参考訳): ASRのための音声エンコーダと大規模言語モデルとの総合解法
- Authors: Van Tung Pham, Yist Lin, Tao Han, Wei Li, Jun Zhang, Lu Lu, Yuxuan Wang,
- Abstract要約: 近年,音声認識のための言語エンコーダを大規模言語モデル (LLM) に接続する手法が提案されている。
しかし、微調整オプションの制限、音声テキストアライメントを強制するメカニズムの欠如、挿入エラーの増大など、いくつかの制限が続く。
本稿では,これらの課題に対処するための包括的解決策を提案する。
- 参考スコア(独自算出の注目度): 14.380210167130032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works have shown promising results in connecting speech encoders to large language models (LLMs) for speech recognition. However, several limitations persist, including limited fine-tuning options, a lack of mechanisms to enforce speech-text alignment, and high insertion errors especially in domain mismatch conditions. This paper presents a comprehensive solution to address these issues. We begin by investigating more thoughtful fine-tuning schemes. Next, we propose a matching loss to enhance alignment between modalities. Finally, we explore training and inference methods to mitigate high insertion errors. Experimental results on the Librispeech corpus demonstrate that partially fine-tuning the encoder and LLM using parameter-efficient methods, such as LoRA, is the most cost-effective approach. Additionally, the matching loss improves modality alignment, enhancing performance. The proposed training and inference methods significantly reduce insertion errors.
- Abstract(参考訳): 近年,音声認識のための言語エンコーダを大規模言語モデル (LLM) に接続する手法が提案されている。
しかし、微調整オプションの制限、音声テキストアライメントを強制するメカニズムの欠如、特にドメインミスマッチ条件における挿入エラーの増大など、いくつかの制限が持続している。
本稿では,これらの課題に対処するための包括的解決策を提案する。
私たちはまず、より思慮深い微調整スキームの調査から始めます。
次に、モダリティ間のアライメントを高めるために、マッチング損失を提案する。
最後に,高い挿入誤差を軽減するためのトレーニングと推論手法について検討する。
Librispeech corpus の実験結果から,LoRA などのパラメータ効率の高い手法を用いてエンコーダと LLM を部分的に微調整することが最もコスト効率のよい手法であることが示された。
さらに、マッチング損失はモダリティアライメントを改善し、性能を向上させる。
提案手法は挿入誤りを著しく低減する。
関連論文リスト
- PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。
PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2~10倍改善)を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:46:17Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Constrained Decoding for Fill-in-the-Middle Code Language Models via Efficient Left and Right Quotienting of Context-Sensitive Grammars [11.279507894576213]
本稿では,構文的に正しくないコードの早期拒絶を可能にするインクリメンタルな合成に寄与する。
文脈自由文法の左右商を許容するために、Earey解析アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2024-02-28T02:12:47Z) - Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。
復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。
本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2024-01-15T17:26:50Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech
Translation [36.12146100483228]
AdaTranSは、音声特徴とテキスト特徴との間の長さミスマッチを軽減するために、新しい縮小機構で音声特徴に適応する。
MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-17T16:14:30Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。