論文の概要: Speech LLMs are Contextual Reasoning Transcribers
- arxiv url: http://arxiv.org/abs/2604.00610v1
- Date: Wed, 01 Apr 2026 08:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.901658
- Title: Speech LLMs are Contextual Reasoning Transcribers
- Title(参考訳): 音声LPMは文脈共振変換器である
- Authors: Keqi Deng, Ruchao Fan, Bo Ren, Yiming Wang, Jinyu Li,
- Abstract要約: チェーン・オブ・シント ASR (CoT-ASR) は文脈分析を生成する推論連鎖を構成する。
CoT-ASRは自然にユーザ誘導転写をサポートする。
単語エラー率(WER)が8.7%、エンティティエラー率(EER)が16.9%の相対的な削減を実現している。
- 参考スコア(独自算出の注目度): 29.079159231628026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite extensions to speech inputs, effectively leveraging the rich knowledge and contextual understanding of large language models (LLMs) in automatic speech recognition (ASR) remains non-trivial, as the task primarily involves direct speech-to-text mapping. To address this, this paper proposes chain-of-thought ASR (CoT-ASR), which constructs a reasoning chain that enables LLMs to first analyze the input speech and generate contextual analysis, thereby fully exploiting their generative capabilities. With this contextual reasoning, CoT-ASR then performs more informed speech recognition and completes both reasoning and transcription in a single pass. Moreover, CoT-ASR naturally supports user-guided transcription: while designed to self-generate reasoning, it can also seamlessly incorporate user-provided context to guide transcription, further extending ASR functionality. To reduce the modality gap, this paper introduces a CTC-guided Modality Adapter, which uses CTC non-blank token probabilities to weight LLM embeddings, efficiently aligning speech encoder outputs with the LLM's textual latent space. Experiments show that, compared to standard LLM-based ASR, CoT-ASR achieves a relative reduction of 8.7% in word error rate (WER) and 16.9% in entity error rate (EER).
- Abstract(参考訳): 音声入力の拡張にもかかわらず、音声認識(ASR)における大規模言語モデル(LLM)の豊富な知識と文脈的理解を効果的に活用することは、主に音声からテキストへの直接マッピングを含むため、依然として簡単ではない。
そこで本稿では,LLMがまず入力音声を解析し,文脈解析を生成し,その生成能力を十分に活用できる推論チェーンを構築するためのチェーン・オブ・シント ASR (CoT-ASR) を提案する。
この文脈的推論により、CoT-ASRはより情報的な音声認識を行い、推論と転写の両方を単一のパスで完了する。
さらに、CoT-ASRは自然にユーザ誘導の転写をサポートし、推論を自己生成するように設計されているが、ユーザが提供するコンテキストをシームレスに組み込んで書き起こしをガイドし、さらにASR機能を拡張できる。
モダリティギャップを低減するために,CTC非ブランクトークン確率を用いてLLM埋め込みを重み付けし,音声エンコーダ出力をLLMのテキスト潜在空間に効率よく整列させるCTC誘導型モダリティアダプタを提案する。
実験によると、標準のLLMベースのASRと比較して、CoT-ASRは単語誤り率(WER)が8.7%、エンティティエラー率(EER)が16.9%の相対的な減少を達成している。
関連論文リスト
- Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。