Fugu-MT 論文翻訳(概要): A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR

論文の概要: A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR

arxiv url: http://arxiv.org/abs/2406.17272v1
Date: Tue, 25 Jun 2024 04:35:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 15:41:13.207228
Title: A Comprehensive Solution to Connect Speech Encoder and Large Language Model for ASR
Title（参考訳）: ASRのための音声エンコーダと大規模言語モデルとの総合解法
Authors: Van Tung Pham, Yist Lin, Tao Han, Wei Li, Jun Zhang, Lu Lu, Yuxuan Wang,
Abstract要約: 近年,音声認識のための言語エンコーダを大規模言語モデル (LLM) に接続する手法が提案されている。しかし、微調整オプションの制限、音声テキストアライメントを強制するメカニズムの欠如、挿入エラーの増大など、いくつかの制限が続く。本稿では,これらの課題に対処するための包括的解決策を提案する。
参考スコア（独自算出の注目度）: 14.380210167130032
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have shown promising results in connecting speech encoders to large language models (LLMs) for speech recognition. However, several limitations persist, including limited fine-tuning options, a lack of mechanisms to enforce speech-text alignment, and high insertion errors especially in domain mismatch conditions. This paper presents a comprehensive solution to address these issues. We begin by investigating more thoughtful fine-tuning schemes. Next, we propose a matching loss to enhance alignment between modalities. Finally, we explore training and inference methods to mitigate high insertion errors. Experimental results on the Librispeech corpus demonstrate that partially fine-tuning the encoder and LLM using parameter-efficient methods, such as LoRA, is the most cost-effective approach. Additionally, the matching loss improves modality alignment, enhancing performance. The proposed training and inference methods significantly reduce insertion errors.
Abstract（参考訳）: 近年,音声認識のための言語エンコーダを大規模言語モデル (LLM) に接続する手法が提案されている。しかし、微調整オプションの制限、音声テキストアライメントを強制するメカニズムの欠如、特にドメインミスマッチ条件における挿入エラーの増大など、いくつかの制限が持続している。本稿では,これらの課題に対処するための包括的解決策を提案する。私たちはまず、より思慮深い微調整スキームの調査から始めます。次に、モダリティ間のアライメントを高めるために、マッチング損失を提案する。最後に,高い挿入誤差を軽減するためのトレーニングと推論手法について検討する。 Librispeech corpus の実験結果から,LoRA などのパラメータ効率の高い手法を用いてエンコーダと LLM を部分的に微調整することが最もコスト効率のよい手法であることが示された。さらに、マッチング損失はモダリティアライメントを改善し、性能を向上させる。提案手法は挿入誤りを著しく低減する。

関連論文リスト

Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
BanditSpec: Adaptive Speculative Decoding via Bandit Algorithms [101.9736063064503]
大規模言語モデル(LLM)の推論を高速化する一般的な手法として、投機的復号法が登場した。本稿では,テキスト生成時に投機的復号化のためのハイパーパラメータの設定を適応的に選択する学習自由オンライン学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T05:56:31Z)
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation [15.58921460046093]
本稿では,音声言語モデル(ALM)を用いて,予備的分離後のテキスト領域内での音声の修正と再合成を行う先駆的アプローチであるSepALMを紹介する。 SepALMは、セパレータ、修正器、シンセサイザー、調整器の4つのコアコンポーネントから構成される。我々の実験は、SepALMが音声分離の精度を高めるだけでなく、新しい音響環境における適応性を著しく向上させることを実証している。
論文参考訳（メタデータ） (2025-05-06T08:04:37Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文参考訳（メタデータ） (2025-01-26T15:04:02Z)
PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。 PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2～10倍改善)を実現していることを示す。
論文参考訳（メタデータ） (2024-06-12T02:46:17Z)
An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文参考訳（メタデータ） (2024-03-30T15:29:49Z)
Constrained Decoding for Fill-in-the-Middle Code Language Models via Efficient Left and Right Quotienting of Context-Sensitive Grammars [11.279507894576213]
本稿では,構文的に正しくないコードの早期拒絶を可能にするインクリメンタルな合成に寄与する。文脈自由文法の左右商を許容するために、Earey解析アルゴリズムを拡張した。
論文参考訳（メタデータ） (2024-02-28T02:12:47Z)
Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding [46.485363806259265]
投機的デコーディングは、LLM(Large Language Models)推論のための新しいデコーディングパラダイムとして登場した。復号処理の各ステップにおいて、この手法はまず、複数の将来のトークンを効率的にドラフトし、それらを並列に検証する。本稿では,この有望な復号化パラダイムの概観と解析について述べる。
論文参考訳（メタデータ） (2024-01-15T17:26:50Z)
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。提案手法であるPremiseが実際によく動作することを示す。
論文参考訳（メタデータ） (2023-11-18T00:24:26Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文参考訳（メタデータ） (2023-08-11T13:28:48Z)
Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。 TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文参考訳（メタデータ） (2023-05-30T09:57:36Z)
AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech Translation [36.12146100483228]
AdaTranSは、音声特徴とテキスト特徴との間の長さミスマッチを軽減するために、新しい縮小機構で音声特徴に適応する。 MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの方法よりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-12-17T16:14:30Z)
Single-channel speech separation using Soft-minimum Permutation Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。 Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-16T17:25:05Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。