論文の概要: From Silent Signals to Natural Language: A Dual-Stage Transformer-LLM Approach
- arxiv url: http://arxiv.org/abs/2509.04507v1
- Date: Tue, 02 Sep 2025 16:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.345148
- Title: From Silent Signals to Natural Language: A Dual-Stage Transformer-LLM Approach
- Title(参考訳): 無声信号から自然言語へ:Dual-Stage Transformer-LLMアプローチ
- Authors: Nithyashree Sivasubramaniam,
- Abstract要約: 本稿では,変圧器をベースとした音響モデルと,後処理のための大規模言語モデル(LLM)を組み合わせた音声認識フレームワークを提案する。
実験の結果,単語誤り率 (WER) は36%の基準で16%, 単語誤り率 (WER) は6%低下した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Silent Speech Interfaces (SSIs) have gained attention for their ability to generate intelligible speech from non-acoustic signals. While significant progress has been made in advancing speech generation pipelines, limited work has addressed the recognition and downstream processing of synthesized speech, which often suffers from phonetic ambiguity and noise. To overcome these challenges, we propose an enhanced automatic speech recognition framework that combines a transformer-based acoustic model with a large language model (LLM) for post-processing. The transformer captures full utterance context, while the LLM ensures linguistic consistency. Experimental results show a 16% relative and 6% absolute reduction in word error rate (WER) over a 36% baseline, demonstrating substantial improvements in intelligibility for silent speech interfaces.
- Abstract(参考訳): サイレント音声インタフェース(SSI)は,非音響信号から知的な音声を生成する能力に注目されている。
音声生成パイプラインの進行には大きな進歩があったが、音声のあいまいさや雑音に悩まされる合成音声の認識と下流処理に、限られた作業が取り組んできた。
これらの課題を克服するために,変換器に基づく音響モデルと後処理のための大規模言語モデル(LLM)を組み合わせた拡張された自動音声認識フレームワークを提案する。
変換器は全発話コンテキストをキャプチャし、LLMは言語的一貫性を保証する。
実験の結果,単語誤り率 (WER) は36%の基準で16%, 単語誤り率 (WER) は6%低下した。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。