論文の概要: Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMs
- arxiv url: http://arxiv.org/abs/2506.00304v1
- Date: Fri, 30 May 2025 23:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.624911
- Title: Can LLMs Understand Unvoiced Speech? Exploring EMG-to-Text Conversion with LLMs
- Title(参考訳): LLMは無声音声に耐えられるか? : LLMを用いたEMG-テキスト変換の探索
- Authors: Payal Mohapatra, Akash Pandey, Xiaoyuan Zhang, Qi Zhu,
- Abstract要約: 無声エレクトロミオグラフィー(英語: Unvoiced Electromyography, EMG)は、音声を生成できない個人のための効果的なコミュニケーションツールである。
音声認識における大規模言語モデル(LLM)の台頭を踏まえ,無声音声の理解の可能性を探る。
本稿では,EMG の機能を LLM の入力空間にマッピングする新しい EMG 適応モジュールを提案する。
- 参考スコア(独自算出の注目度): 4.201963244739168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unvoiced electromyography (EMG) is an effective communication tool for individuals unable to produce vocal speech. However, most prior methods rely on paired voiced and unvoiced EMG signals, along with speech data, for EMG-to-text conversion, which is not practical for such individuals. Given the rise of large language models (LLMs) in speech recognition, we explore their potential to understand unvoiced speech. To this end, we address the challenge of learning from unvoiced EMG alone and propose a novel EMG adaptor module that maps EMG features into an LLM's input space, achieving an average word error rate (WER) of 0.49 on a closed-vocabulary unvoiced EMG-to-text task. Even with a conservative data availability of just six minutes, our approach improves performance over specialized models by nearly 20%. While LLMs have been shown to be extendable to new language modalities -- such as audio -- understanding articulatory biosignals like unvoiced EMG remains more challenging. This work takes a crucial first step toward enabling LLMs to comprehend unvoiced speech using surface EMG.
- Abstract(参考訳): 無声エレクトロミオグラフィー(英語: Unvoiced Electromyography, EMG)は、音声を生成できない個人のための効果的なコミュニケーションツールである。
しかし、従来のほとんどの手法は、音声データとともに、音声と無声のEMG信号に頼っているため、そのような個人には実用的ではない。
音声認識における大規模言語モデル(LLM)の台頭を踏まえ,無声音声の理解の可能性を探る。
この目的のために,無声EMGのみから学習することの課題に対処し,無声EMG-to-textタスクにおいて平均単語誤り率0.49を達成し,EMG特徴をLLMの入力空間にマッピングする新しいEMG適応モジュールを提案する。
保守的なデータ可用性がわずか6分であっても、当社のアプローチは、特殊なモデルよりも20%近くパフォーマンスを改善しています。
LLMは、音声などの新しい言語モダリティに拡張可能であることが示されているが、無声EMGのような明瞭な生体信号を理解することは、より難しいままである。
本研究は,LLMが表面EMGを用いて無声音声を理解できるようにするための重要な第一歩である。
関連論文リスト
- Speech Recognition With LLMs Adapted to Disordered Speech Using Reinforcement Learning [13.113505050543298]
本稿では,音声入力を処理可能な大規模言語モデルを提案する。
人間の嗜好に基づく強化学習でさらに調整することで、従来の微調整よりも混乱した音声に適応できることが示される。
論文 参考訳(メタデータ) (2024-12-25T00:16:22Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Prompting Large Language Models with Speech Recognition Abilities [31.77576008965215]
我々は,音声認識を行うための小型オーディオエンコーダを直接取り付けることで,大規模言語モデルの能力を拡張した。
MultilingualSpeechの実験では、コンバータエンコーダをオープンソースのLLaMA-7Bに組み込むことで、モノリンガルベースラインを18%上回る結果となった。
論文 参考訳(メタデータ) (2023-07-21T08:39:15Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation [27.19320167337675]
本稿では,音声側のみで自己教師型で頑健な音声エンコーダを学習する手法を提案する。
Masked Acoustic Modeling (MAM) と呼ばれるこの技術は、E2E-STを改善する代替ソリューションを提供するだけでなく、任意の音響信号に対して事前学習を行うこともできる。
書き起こしを一切使わずに設定すると,MAM予習による+1.1BLEU,+2.3BLEUの平均的改善が達成される。
論文 参考訳(メタデータ) (2020-10-22T05:02:06Z) - Digital Voicing of Silent Speech [48.15708685020142]
本研究では,無声音声をEMG(Electromyography)センサ計測に基づいて,無声音声から有声音声に変換する作業について考察する。
音声信号からサイレント信号へ音声ターゲットを移動させることにより、サイレントEMGの訓練方法を提案する。
本手法は,有声データのみを学習するベースラインに比べて,サイレントEMGから発生する音声の可聴性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-10-06T18:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。