論文の概要: FormalASR: End-to-End Spoken Chinese to Formal Text
- arxiv url: http://arxiv.org/abs/2605.19266v1
- Date: Tue, 19 May 2026 02:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.077311
- Title: FormalASR: End-to-End Spoken Chinese to Formal Text
- Title(参考訳): FormalASR: 中国語から形式テキストへのエンドツーエンド
- Authors: Wanyi Ning, Yinshang Guo, Haitao Qian, Jiyuan Cheng, Weiyuan Feng, Yufei Zhang,
- Abstract要約: 本稿では,2つのコンパクト・エンド・ツー・エンド・モデルであるFormalASRについて述べる。
WenetSpeech-Formal および Speechio-Formal の実験により、FormalASR は動詞のベースラインよりも37.4% の相対的な CER 還元を達成することが示された。
- 参考スコア(独自算出の注目度): 1.814001105518696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems are typically optimized for verbatim transcription, which preserves disfluencies, filler words, and informal spoken structures that are often unsuitable for downstream writing-oriented applications. A common workaround is a two-stage ASR+LLM pipeline for post-editing, but this design increases latency and memory cost and is difficult to deploy on-device. We present FormalASR, two compact end-to-end models (0.6B and 1.7B) that directly transcribe spoken Chinese into formal written text. To enable this setting, we build WenetSpeech-Formal and Speechio-Formal, two large-scale spoken-to-formal datasets constructed by LLM-based rewriting and quality filtering. We then fine-tune Qwen3-ASR at two scales (0.6B and 1.7B) with supervised fine-tuning. Experiments on WenetSpeech-Formal and Speechio-Formal show that FormalASR achieves up to 37.4% relative CER reduction over verbatim baselines, while also improving ROUGE-L and BERTScore. FormalASR requires no post-processing LLM at deployment time, providing a lightweight, on-device solution for spoken-to-formal transcription.
- Abstract(参考訳): 自動音声認識(ASR)システムは、通常、動詞の書き起こしに最適化されている。
一般的な回避策として、後編集用の2段階のASR+LLMパイプラインがあるが、この設計はレイテンシとメモリコストを増大させ、デバイス上でのデプロイが困難である。
本稿では,2つのコンパクト・エンド・ツー・エンド・モデル(0.6Bと1.7B)について述べる。
この設定を実現するために、LLMベースの書き換えと品質フィルタリングによって構築された2つの大規模音声合成データセットである、WenetSpeech-Formal と Speechio-Formal を構築した。
次に2つのスケール(0.6Bと1.7B)でQwen3-ASRを微調整し、教師付き微調整を行う。
WenetSpeech-Formal と Speechio-Formal の実験により、FormalASR は動詞のベースラインよりも37.4%の相対的な CER 削減を実現し、ROUGE-L とBERTScore も改善した。
FormalASRはデプロイメント時にLCMを後処理する必要がなく、音声から音声への書き起こしのための軽量でオンデバイスなソリューションを提供する。
関連論文リスト
- KAME: Tandem Architecture for Enhancing Knowledge in Real-Time Speech-to-Speech Conversational AI [14.667102744113295]
リアルタイム音声合成(S2S)モデルは低レイテンシな会話応答を生成するのに優れているが、深い知識と意味理解が欠けていることが多い。
自動音声認識、テキストベース大規模言語モデル(LLM)、テキスト音声合成を組み合わせたCケースドシステムは、高いレイテンシを犠牲にして優れた知識表現を提供する。
本稿では,この2つのパラダイムのギャップを埋める新しいハイブリッドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-09-26T00:46:34Z) - Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition [27.16462631523899]
既存のマルチストーカー (MT) 自動音声認識 (ASR) システムは、省略プロンプトまたは単純なタスク定義プロンプトに依存している。
本稿では,逐次出力プロンプト(SOP)を抽出し,構造化プロンプトを用いてLLMを明示的に誘導し,システム性能を向上させることを提案する。
提案手法により, 2-および3-talker条件下での性能が有意に向上した。
論文 参考訳(メタデータ) (2025-09-01T03:10:14Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。
本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文 参考訳(メタデータ) (2025-01-26T15:04:02Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - DiarizationLM: Speaker Diarization Post-Processing with Large Language Models [18.25875452290753]
DiarizationLMは、大きな言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークである。
このフレームワークは、市販のASRや話者ダイアリゼーションシステムにも容易に適用できる。
論文 参考訳(メタデータ) (2024-01-07T14:54:57Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。